必须计算出准确的目标坐标文字转WAV音频