免费扫描软件
无广告、无水印

扫描PDF文件OCR识别

推荐个OCR识别软件:ocrmypdf

先说一下安装:全平台支持,不过Windows上安装略显复杂,需要Windows高级的操作,软件官方给出的有详细安装方法。先简要说一下安装方法,觉得麻烦的就不必往下看了。Windows上主要有三种安装方法:

方法一:chocolatey包管理器安装Python 3、Tesseract、Ghostscript 或者挨个去官网下载安装(可能需要修改环境变量)。chocolatey是windows上的命令行软件管理器,需要按照官网说明或者网络教程先安装chocolatey,之后安装ocrmypdf就简单了,不仅如此,也可以通过chocolatey来管理Windows上的软件。

方法二:WSL安装。需要先安装Windows的子系统Ubuntu18,然后就和Ubuntu18安装一样了。

方法三:Cygwin64安装,也是模拟的Linux环境来安装的。

官网都有详细说明。

下面是正文

当我们遇到扫描版PDF文件的时候是没有办法复制里面的文字的,这时候我们一般可以通过截图发QQ,利用QQ来进行OCR文本识别,这样的效率是比较低的。当需要识别的内容较少时还可以,多了就。。。。

ocrmypdf可以通过OCR文本识别来为PDF文件添加一层识别的文本层,然后就可以复制了,识别率和识别速度还可以,试了个几百页的扫描版PDF书籍,感觉速度挺慢的哈。如果文件是纯文本的,且不需要排版,只需要文本,识别后可以另存为txt文件,识别错误的地方和断句等需要手动调整。

不仅仅是对扫描PDF文件进行文本识别,也可以识别图片的文本,由于是命令行的软件,特别适合批处理。

未经允许不得转载:坚果云扫描 » 扫描PDF文件OCR识别
分享到: 更多 (0)

免费扫描软件 无广告 无水印

坚果云扫描下载坚果云扫描介绍