【项目】Node.js + Electron 撸个OCR工具

背景

朋友工作总要找资料什么的，大多是pdf扫描版格式，无法复制，需要转成word或者文字，但由于其人穷，又不买那些pdf在线转换word的工具。得知后，帮助开发一个工具给她使用。

本项目基于百度AIP平台，OCR接口

这个简单，直接走百度OCR即可得到结果。node.js调用SDK而已

这个通过pdfinfo 工具 + GraphicsMagick 来实现，pdfinfo获取pdf文件信息（分页信息等），GraphicsMagick 将pdf作为图片（处理图片很强大）。

这个麻烦是在 pdfinfo 工具是无法获取pdf文件信息的，需要代码做兼容情况处理。扫描版PDF最终还是转换图片后再OCR提取文字。

详细使用方式阅读README.md https://github.com/giscafer/easyocr

一年多不逛cnode了，回来看看，顺便分享这个demo，也是这几天开发的。

yuu2lee4 1楼•24 天前

划重点她，顺便问一句，如何解决electron体积过大问题

你这是electron写的哦

giscafer 3楼•24 天前作者

@zlyuanteng electron只是写界面，核心功能都是node.js

giscafer 4楼•24 天前作者

@yuu2lee4 犀利。。。

electron 体积大是硬伤，网上有一些优化方式，但是效果不是很显著，记得github看到过一个新的工具，目的是解决electron体积问题的。想找但找不着了

kzfile 5楼•24 天前

百度这个接口的调用限制是多少?

giscafer 6楼•24 天前作者

我是百度云老用户，用的是免费版【通用文字识别】——5w次/天，有qps限制，如图

TIM截图20180907092629.png

新用户不限次数，官网宣传是这么说的

icai 7楼•23 天前

厉害啊

来自拉风的 Taro-cnode

tsaisb 8楼•23 天前

實用

giscafer 9楼•22 天前作者

@tsaisb 也只有实用工具才有动力玩这些demo了。