Tesseractjs:32k+ Stars 纯 JS 实现的开源 OCR 图像识别库,支持100多种语言
|
admin
2023年11月16日 22:14
本文热度 871
|
Tesseract.js 是一个基于 Tesseract OCR 引擎开源的 Javascript 库,支持 100 多种语言(中文支持),支持自动文本定位和脚本检测,用于读取段落、单词和字符边界框的简单界面。既可以在浏览器中运行,也可以在带有NodeJS的服务器上运行。Tesseract.js 在开源社区获得大量开发者的喜赖,目前在Github上已经获得了32K Stars。
🍄 安装依赖
通过 CDN 方式在 <script> 标签直接引入<!-- v5 -->
<script src='https://cdn.jsdelivr.net/npm/tesseract.js@5/dist/tesseract.min.js'></script>
通过 npm 使用 webpack,在 Node.js 上使用 npm/yarn 命令安装# For latest version
npm install tesseract.js
yarn add tesseract.js
# For old versions
npm install tesseract.js@3.0.3
yarn add tesseract.js@3.0.3
# First we clone the repository
git clone https://github.com/naptha/tesseract.js.git
cd tesseract.js
# Then we install the dependencies
npm install
# And finally we start the development server
npm start
启动成功之后,在浏览器打开,即可查看官方demo演示:
🌱 快速体验
提供一张英文图片:
英文OCR识别结果:
此外还支持中文识别:
识别的准确度非常高,此外还支持识别之后导出PDF,大家也可以试试~
https://tesseract.projectnaptha.com/
Tesseract 是惠普布里斯托实验室在1985到1995年间开发的一个开源的OCR引擎,曾经在1995 UNLV精确度测试中名列前茅。但1996年后基本停止了开发。2005年,惠普将其对外开源,2006 由Google对Tesseract进行改进、消除Bug、优化工作。
该文章在 2023/11/16 22:14:21 编辑过