用于动作捕捉的拍摄环境文字转WAV音频