我可以依靠他们发出的喘息分辨出他们的数量和方位文字转WAV音频