简单的动作代表着他的回答文字转WAV音频