以后无论什么模式全都单排算了文字转WAV音频