他们也能够判断出大致的距离文字转WAV音频