他们两个也就直接坐在那里等待文字转WAV音频