最终呈现的就是最精密准确的图像文字转WAV音频