那他们为什么一开始没有用文字转WAV音频