就可以用实际捕捉的动作数据去驱动骨骼模型运动文字转WAV音频