在回答问题的时候他们的面部表情以及声调还有肢体语言文字转WAV音频