他们只需使用最基础的文字转WAV音频