而且双方在同一个场景里进行演出的对比性画面也并不会太多文字转WAV音频