再一次的结合周身的环境以及对方的姿势动作频率等等文字转WAV音频