我们必须弄清楚那段视频里都拍摄了什么――现在整件事完全建立在口供上文字转WAV音频