就是推理能力很强文字转WAV音频