根本不会坚持所有画面都必须实景或者使用模型拍摄文字转WAV音频