要求每一次拍摄两名演员都按照真正的表演进行文字转WAV音频