更不会单纯的以眼睛看到的为事实文字转WAV音频