专栏/【PC】Umi-OCR 免费 离线 文字识别(支持PDF识别)

【PC】Umi-OCR 免费 离线 文字识别(支持PDF识别)

2024年04月20日 03:04--浏览 · --点赞 · --评论
粉丝:267文章:20
科技与生活

(此软件为搬运转载,出处来自:https://www.52pojie.cn/thread-1859699-1-1.html

免费,开源,批量,无限次数的离线OCR软件。

适用于 Windows7 x64 及以上。现已支持PDF识别,输出双层可搜索PDF。

链接:https://github.com/hiroi-sora/Umi-OCR

  • 免费:本项目所有代码开源,完全免费。
  • 方便:解压即用,离线运行,无需网络。
  • 高效:自带高效率的离线OCR引擎,内置多种语言识别库。
  • 灵活:支持命令行、HTTP接口等外部调用方式。
  • 功能:截图OCR / 批量OCR / PDF识别 / 二维码 / 公式识别(测试中)

read-normal-img

read-normal-img

read-normal-img

read-normal-img

read-normal-img

read-normal-img

以下发布链接均长期维护,提供最新软件版本。

  • 蓝奏云 https://hiroi-sora.lanzoul.com/s/umi-ocr
  • GitHub https://github.com/hiroi-sora/Umi-OCR/releases/latest
  • Source Forge https://sourceforge.net/projects/umi-ocr

开始使用

软件发布包下载为 .7z.exe 自解压包,可在没有安装压缩软件的电脑上解压。解压后,点击 Umi-OCR.exe 即可启动程序。

遇到任何问题,或者希望请求新功能,请提在 Github 发个 Issue ,我会尽可能帮助你。(不经常上52,可能错过你的消息。)

另:兼容 Windows 7 是一项困难的工作,因为很多第三方库都不支持了。我只能尽量确保在靠后的Win7版本(如7601.24545)能完美使用所有功能。

Windows 7 用户遇到异常可参考: 常见问题及修复方法

(https://gitee.com/hiroi-sora/Umi-OCR/issues/I9CTPC)

Umi-OCR v2 由一系列灵活好用的标签页组成。您可按照自己的喜好,打开需要的标签页。

标签栏左上角可以切换窗口置顶。右上角能够锁定标签页,以防止日常使用中误触关闭标签页。

关于 OCR文本后处理 - 忽略区域: 批量OCR中的一种特殊功能,适用于排除图片中的不想要的文字。

在批量识别页的右栏设置中可进入忽略区域编辑器。

如上方样例,图片顶部和右下角存在多个水印 / LOGO。

如果批量识别这类图片,水印会对识别结果造成干扰。

按住右键,绘制多个矩形框。这些区域内的文字将在任务中被忽略。

请尽量将矩形框画得大一些,完全包裹住水印所有可能出现的位置。

调用接口

命令行手册:https://gitee.com/hiroi-sora/Umi-OCR/blob/main/docs/README_CLI.md

HTTP接口手册:https://gitee.com/hiroi-sora/Umi-OCR/blob/main/docs/README_HTTP.md

主仓库:https://github.com/hiroi-sora/Umi-OCR

备用仓库:https://github.com/hiroi-sora/Umi-OCR_plugins(已开发 数学公式识别插件 )

Win运行库:https://github.com/hiroi-sora/Umi-OCR_runtime_windows

支持的离线引擎

PaddleOCR-json:https://github.com/hiroi-sora/PaddleOCR-json

RapidOCR-json:https://github.com/hiroi-sora/RapidOCR-json

运行环境框架:https://github.com/skywind3000/PyStand

项目主页:https://github.com/hiroi-sora/Umi-OCR

更新日志:https://github.com/hiroi-sora/Umi-OCR/blob/main/CHANGE_LOG.md

注:此软件在Win10上完美运行,其他系统请自行测试。


投诉或建议