他们必须确定大概的位置文字转WAV音频