LOGO OA教程 ERP教程 模切知识交流 PMS教程 CRM教程 开发文档 其他文档  
 
网站管理员

Tesseractjs:32k+ Stars 纯 JS 实现的开源 OCR 图像识别库,支持100多种语言

admin
2023年11月16日 22:14 本文热度 871

Tesseract.js 是一个基于 Tesseract OCR 引擎开源的 Javascript 库,支持 100 多种语言(中文支持),支持自动文本定位和脚本检测,用于读取段落、单词和字符边界框的简单界面。既可以在浏览器中运行,也可以在带有NodeJS的服务器上运行。
Tesseract.js 在开源社区获得大量开发者的喜赖,目前在Github上已经获得了32K Stars。

🍄 安装依赖

1、CDN
通过 CDN 方式在 <script> 标签直接引入
<!-- v5 -->
<script src='https://cdn.jsdelivr.net/npm/tesseract.js@5/dist/tesseract.min.js'></script>
2、Node.js
前提需要 Node.js v14 或更高版本
通过 npm 使用 webpack,在 Node.js 上使用 npm/yarn 命令安装
# For latest version
npm install tesseract.js
yarn add tesseract.js
# For old versions
npm install tesseract.js@3.0.3
yarn add tesseract.js@3.0.3
3、本地运行 Tesseract.js 
通过git clone代码到本地,命令如下:
# First we clone the repositorygit clone https://github.com/naptha/tesseract.js.gitcd tesseract.js
# Then we install the dependenciesnpm install
# And finally we start the development servernpm start

启动成功之后,在浏览器打开,即可查看官方demo演示:

http://localhost:3000/examples/browser/download-pdf.html

🌱 快速体验

提供一张英文图片:

英文OCR识别结果:

此外还支持中文识别:

识别结果:
识别的准确度非常高,此外还支持识别之后导出PDF,大家也可以试试~
最后贴上官方的链接:
Github开源代码:
https://github.com/naptha/tesseract.js
官网demo演示地址:

https://tesseract.projectnaptha.com/

Tesseract 是惠普布里斯托实验室在1985到1995年间开发的一个开源的OCR引擎,曾经在1995 UNLV精确度测试中名列前茅。但1996年后基本停止了开发。2005年,惠普将其对外开源,2006 由Google对Tesseract进行改进、消除Bug、优化工作。

END


该文章在 2023/11/16 22:14:21 编辑过
关键字查询
相关文章
正在查询...
点晴ERP是一款针对中小制造业的专业生产管理软件系统,系统成熟度和易用性得到了国内大量中小企业的青睐。
点晴PMS码头管理系统主要针对港口码头集装箱与散货日常运作、调度、堆场、车队、财务费用、相关报表等业务管理,结合码头的业务特点,围绕调度、堆场作业而开发的。集技术的先进性、管理的有效性于一体,是物流码头及其他港口类企业的高效ERP管理信息系统。
点晴WMS仓储管理系统提供了货物产品管理,销售管理,采购管理,仓储管理,仓库管理,保质期管理,货位管理,库位管理,生产管理,WMS管理系统,标签打印,条形码,二维码管理,批号管理软件。
点晴免费OA是一款软件和通用服务都免费,不限功能、不限时间、不限用户的免费OA协同办公管理系统。
Copyright 2010-2024 ClickSun All Rights Reserved