在找到准确位置前文字转WAV音频