最简单的办法就是从控制的人身上抽取文字转WAV音频