它们的架构小了很多文字转WAV音频