所以它传输回来的这些影像信息分辨率很高文字转WAV音频