但直接是用动作进行了回答文字转WAV音频