准确的说是双方的位置文字转WAV音频