他们的动作会半定格状态文字转WAV音频