大致判断出他的位置文字转WAV音频