很多时候其实就是独断的文字转WAV音频