目标似乎可以理解我们的语言文字转WAV音频