他们之间的对话也一定有很多文字转WAV音频