这个问题就不用考虑文字转WAV音频