这个假设才是最合理的文字转WAV音频