(此软件为搬运转载,出处来自:https://www.52pojie.cn/thread-1859699-1-1.html
)
免费,开源,批量,无限次数的离线OCR软件。
适用于 Windows7 x64 及以上。现已支持PDF识别,输出双层可搜索PDF。
链接:https://github.com/hiroi-sora/Umi-OCR
- 免费:本项目所有代码开源,完全免费。
- 方便:解压即用,离线运行,无需网络。
- 高效:自带高效率的离线OCR引擎,内置多种语言识别库。
- 灵活:支持命令行、HTTP接口等外部调用方式。
- 功能:截图OCR / 批量OCR / PDF识别 / 二维码 / 公式识别(测试中)
以下发布链接均长期维护,提供最新软件版本。
- 蓝奏云 https://hiroi-sora.lanzoul.com/s/umi-ocr
- GitHub https://github.com/hiroi-sora/Umi-OCR/releases/latest
- Source Forge https://sourceforge.net/projects/umi-ocr
开始使用
软件发布包下载为 .7z.exe 自解压包,可在没有安装压缩软件的电脑上解压。解压后,点击 Umi-OCR.exe 即可启动程序。
遇到任何问题,或者希望请求新功能,请提在 Github 发个 Issue ,我会尽可能帮助你。(不经常上52,可能错过你的消息。)
另:兼容 Windows 7 是一项困难的工作,因为很多第三方库都不支持了。我只能尽量确保在靠后的Win7版本(如7601.24545)能完美使用所有功能。
Windows 7 用户遇到异常可参考: 常见问题及修复方法
(https://gitee.com/hiroi-sora/Umi-OCR/issues/I9CTPC)
Umi-OCR v2 由一系列灵活好用的标签页组成。您可按照自己的喜好,打开需要的标签页。
标签栏左上角可以切换窗口置顶。右上角能够锁定标签页,以防止日常使用中误触关闭标签页。
关于 OCR文本后处理 - 忽略区域: 批量OCR中的一种特殊功能,适用于排除图片中的不想要的文字。
在批量识别页的右栏设置中可进入忽略区域编辑器。
如上方样例,图片顶部和右下角存在多个水印 / LOGO。
如果批量识别这类图片,水印会对识别结果造成干扰。
按住右键,绘制多个矩形框。这些区域内的文字将在任务中被忽略。
请尽量将矩形框画得大一些,完全包裹住水印所有可能出现的位置。
调用接口
命令行手册:https://gitee.com/hiroi-sora/Umi-OCR/blob/main/docs/README_CLI.md
HTTP接口手册:https://gitee.com/hiroi-sora/Umi-OCR/blob/main/docs/README_HTTP.md
主仓库:https://github.com/hiroi-sora/Umi-OCR
备用仓库:https://github.com/hiroi-sora/Umi-OCR_plugins(已开发 数学公式识别插件 )
Win运行库:https://github.com/hiroi-sora/Umi-OCR_runtime_windows
支持的离线引擎
PaddleOCR-json:https://github.com/hiroi-sora/PaddleOCR-json
RapidOCR-json:https://github.com/hiroi-sora/RapidOCR-json
运行环境框架:https://github.com/skywind3000/PyStand
项目主页:https://github.com/hiroi-sora/Umi-OCR
更新日志:https://github.com/hiroi-sora/Umi-OCR/blob/main/CHANGE_LOG.md
注:此软件在Win10上完美运行,其他系统请自行测试。