不过他们拍的是……文字转WAV音频