最终推算出他所在的位置文字转WAV音频