根据估计的大体位置文字转WAV音频