我们刚才的推论是对的文字转WAV音频