都是紧随着他的话语文字转WAV音频