似乎是在组织词汇文字转WAV音频