所以他们得相互理解文字转WAV音频