包括他刚才对它说话和做动作文字转WAV音频