第三层则是融合七种文字转WAV音频