通过一连串的快剪辑和分镜文字转WAV音频