由于中间要两次换场文字转WAV音频