将所有站立着的人影都网罗进去文字转WAV音频