亦或者是将门内和门外不同的反应通过一系列的分镜头进行对比……所以文字转WAV音频