也就是最后一段对白被放在了第一场文字转WAV音频