他们的主体框架是不会有所动的文字转WAV音频