实际上内部分工明确文字转WAV音频