因为你通过正常的视觉进行分辨的话文字转WAV音频