可以通过微弱的呼吸声定位里面的每一个人所在位置文字转WAV音频