也就是在第三方中立的抵御单挑文字转WAV音频