从他说这话时的语气推断文字转WAV音频