所以他们的对话可以很清晰地传过来文字转WAV音频