在最后一次俯拍旋转镜头以后文字转WAV音频