位置: 编程技术 - 正文

基于Python实现对PDF文件的OCR识别(利用python进行)

编辑:rootadmin

推荐整理分享基于Python实现对PDF文件的OCR识别(利用python进行),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:基于python的数据处理案例,基于python的,基于python的,基于python语言,基于python的数据处理案例,利用python进行,基于python语言,利用python进行,内容如对您有帮助,希望把文章链接给更多的朋友!

最近在做一个项目的时候,需要将PDF文件作为输入,从中输出文本,然后将文本存入数据库中。为此,我找寻了很久的解决方案,最终才确定使用tesseract。所以不要浪费时间了,我们开始吧。

1.安装tesseract

在不同的系统中安装tesseract非常容易。为了简便,我们以Ubuntu为例。

在Ubuntu中你仅仅需要运行以下命令:

这将会安装支持3种不同语言的tesseract。

2.安装PyOCR

现在我们还需要安装tesseract的Python接口。幸运的是,有许多出色的Python接口。

我们采用最新的一个:

3.安装Wand和PIL

在我们开始之前,还需要另外安装两个依赖包。一个是Wand。它是Imagemagick的Python接口。

我们需要使用它来将PDF文件转换成图像:

基于Python实现对PDF文件的OCR识别(利用python进行)

我们也需要PIL因为PyOCR需要使用它。你可以查看官方文档以确定如何将PIL安装到你的操作系统中。

4.热身

让我们开始我们的脚本吧。首先,我们需要导入一些重要的库:

注意:我将从PIL导入的Image模块改名为PI了,因为如果不这样做的话,它将和wand.image模块发生重名冲突。

5.开始

现在我们需要获得OCR库(在本例中,即tesseract)的句柄以及我们在PyOCR中将使用的语言:

我们使用tool.get_available_languages里的第二种语言,因为之前我曾尝试过,第二种语言就是英语。

接着,我们需要建立两个列表,用于存储我们的图像和最终的文本。

下一步,我们需要采用wand将一个PDF文件转成jpeg文件。让我们试一试吧!

注意:将PDF_FILE_NAME替换成当前路径下的一个可用的PDF文件名。

wand已经将PDF中所有的独立页面都转成了独立的二进制图像对象。我们可以遍历这个大对象,并把它们加入到req_image序列中去。

现在,我们仅仅需要在图像对象上运行OCR即可,非常简单:

现在,所有识别出的文本已经加到了final_text序列中了。你可以任意地使用它。

标签: 利用python进行

本文链接地址:https://www.jiuchutong.com/biancheng/386253.html 转载请保留说明!

上一篇:利用Python实现命令行版的火车票查看器(pytho命名规则)

下一篇:Python脚本处理空格的方法(如何用python编写脚本处理数据)

  • 红字冲回账务处理
  • 投标保证金利息计算起止时间
  • 新个税系统如何操作
  • 销售购物取得的收入
  • 现金抵用券购买怎么用
  • 未完工的工程款怎么支付
  • 无实收资本能日本投资吗
  • 居民纳税人具体包括哪些?
  • 股票收益收税吗
  • 业务招待费税前扣除规定
  • 广告费扣除年限
  • 如果月初忘记抄税直接开票怎么办
  • 小规模企业房产税怎么算
  • 金蝶账可以修改建账日期吗
  • 主营业务类别商业是什么
  • 固定资产加速折旧最新政策2023
  • 贷款本金余额具体是什么意思
  • 企业账面库存过大应怎样处理好
  • 财产清查中固定资产盘亏
  • 营改增后的增值税税率
  • 最新双色球开奖号码
  • 无形资产怎样计算折旧
  • 运输服务费和运输费分别计入什么科目
  • 筹资费用的含义
  • 工资只发一半
  • PHP:Memcached::setMulti()的用法_Memcached类
  • 小规模纳税人销售使用过的固定资产
  • 银行对账单干嘛用
  • 蟹爪兰的养殖方法和浇水
  • neoDVD.exe - neoDVD是什么进程 有什么用
  • 土地增值税安置房收入的确认原则
  • 高新技术企业产品是什么意思
  • 场地租赁费需要计提吗
  • cocos creator脚本开发指南
  • 股权收购印花税填哪里
  • thinkphp 多表查询
  • 已入账的发票跨年退回税务
  • lnewusers命令 创建用户账号
  • 银行对帐单
  • 进出口代理的账务怎么做
  • 小规模纳税人报哪些税
  • 行政单位与事业单位净资产的比较
  • 计提福利费是什么意思
  • 产房日常维修费用
  • 应收票据明细表根据什么编制
  • 机票的电子发票可以报销吗
  • 出差包干费包括什么
  • 收购 发票
  • 金税盘减免税款的会计分录
  • 留存收益和未分配利润一样吗
  • 新手入门会计
  • 依法建账的法是指
  • 工业企业低值易耗品二级科目
  • 设置密码保护的pdf怎么转word
  • boxjs
  • win8.1关机
  • 光标很粗怎么弄细
  • ssh访问windows
  • optimize system
  • mac无法开机怎么办
  • winxp教程
  • g++.exe error
  • searchnavversion.exe - searchnavversion是什么进程 作用是什么
  • linux系统中make的用法
  • win7电脑桌面图标间隔太大怎么调
  • perl时间函数
  • Python中lambda的作用
  • js setmap
  • 批处理 写入文件
  • nodejs获取异步请求返回值
  • shell脚本随机数
  • js中的eval
  • 深入理解javascript特性
  • python如何安装各种库
  • wordpress开发文档
  • js翻页效果的实现原理
  • Android Studio --自动删除没有用的资源,给APK减减肥
  • 浅谈自己对教育的理解
  • 异地预缴增值税销售额是含税
  • 四川职工医保联网了吗
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设