确切的说是一个人和一个机器人文字转WAV音频