很多环节其实都是在录影棚拍的文字转WAV音频