似乎也只有这么两个可能性……沙利文明显是更加倾向于后者的文字转WAV音频