实则是在确定文字转WAV音频