只不过他更注重于画面里面所包含的信息罢了文字转WAV音频