除非能够准确的定位他们的位置文字转WAV音频