而是在审视文字转WAV音频