估计他们所在位置文字转WAV音频