在看到三人的话语与言行之后文字转WAV音频