他们自然会给出一套理由文字转WAV音频