但我们知道他们的最终目的文字转WAV音频