完全可以就地捕捉文字转WAV音频