而且他们是通过热感应去视物的文字转WAV音频