然后不等对面说话文字转WAV音频