位置: 编程技术 - 正文

基于Python实现对PDF文件的OCR识别(利用python进行)

编辑:rootadmin

推荐整理分享基于Python实现对PDF文件的OCR识别(利用python进行),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:基于python的数据处理案例,基于python的,基于python的,基于python语言,基于python的数据处理案例,利用python进行,基于python语言,利用python进行,内容如对您有帮助,希望把文章链接给更多的朋友!

最近在做一个项目的时候,需要将PDF文件作为输入,从中输出文本,然后将文本存入数据库中。为此,我找寻了很久的解决方案,最终才确定使用tesseract。所以不要浪费时间了,我们开始吧。

1.安装tesseract

在不同的系统中安装tesseract非常容易。为了简便,我们以Ubuntu为例。

在Ubuntu中你仅仅需要运行以下命令:

这将会安装支持3种不同语言的tesseract。

2.安装PyOCR

现在我们还需要安装tesseract的Python接口。幸运的是,有许多出色的Python接口。

我们采用最新的一个:

3.安装Wand和PIL

在我们开始之前,还需要另外安装两个依赖包。一个是Wand。它是Imagemagick的Python接口。

我们需要使用它来将PDF文件转换成图像:

基于Python实现对PDF文件的OCR识别(利用python进行)

我们也需要PIL因为PyOCR需要使用它。你可以查看官方文档以确定如何将PIL安装到你的操作系统中。

4.热身

让我们开始我们的脚本吧。首先,我们需要导入一些重要的库:

注意:我将从PIL导入的Image模块改名为PI了,因为如果不这样做的话,它将和wand.image模块发生重名冲突。

5.开始

现在我们需要获得OCR库(在本例中,即tesseract)的句柄以及我们在PyOCR中将使用的语言:

我们使用tool.get_available_languages里的第二种语言,因为之前我曾尝试过,第二种语言就是英语。

接着,我们需要建立两个列表,用于存储我们的图像和最终的文本。

下一步,我们需要采用wand将一个PDF文件转成jpeg文件。让我们试一试吧!

注意:将PDF_FILE_NAME替换成当前路径下的一个可用的PDF文件名。

wand已经将PDF中所有的独立页面都转成了独立的二进制图像对象。我们可以遍历这个大对象,并把它们加入到req_image序列中去。

现在,我们仅仅需要在图像对象上运行OCR即可,非常简单:

现在,所有识别出的文本已经加到了final_text序列中了。你可以任意地使用它。

标签: 利用python进行

本文链接地址:https://www.jiuchutong.com/biancheng/386253.html 转载请保留说明!

上一篇:利用Python实现命令行版的火车票查看器(pytho命名规则)

下一篇:Python脚本处理空格的方法(如何用python编写脚本处理数据)

  • 税务机关内部控制措施
  • 清卡抄税报税顺序
  • 留抵税额下月抵扣的分录
  • 兼职是属于劳动报酬吗
  • 不动产租赁服务的税率是多少
  • 天猫最新提现技术
  • 收到补助款怎么入账
  • 建筑业预缴税款是什么意思
  • 收到承兑汇票怎么兑现步骤
  • 电子缴税付款凭证怎么做账
  • 运输公司的固定资产怎么提折旧
  • 支付单位结算卡年费计入什么科目
  • 要注销的企业多久能注销
  • 增值税发票地址开错了有影响吗
  • 城建税及教育费附加计提表
  • 固定资产2020
  • 开专票需要哪些东西
  • 主营业务收入和其他业务收入的区别
  • 取得的国债利息收入可以抵扣吗
  • 淘宝店铺毛利率多少是正常
  • 净资产收益率怎么求
  • 个人使用过的设备有哪些
  • 人工费没有发票年度汇算调增需要进行调帐处理吗
  • 宝塔linux面板 7.5.2 腾讯云专享版
  • 暂估成本跨年怎么处理分录
  • 子公司接受母公司捐赠的会计处理
  • 融资租赁ppt
  • 最贵的冰箱是多少钱
  • php array_pop函数
  • 销售多余材料计入什么
  • vue2升级3
  • 后续追加投资如何处理
  • 公司向法人借款的借条怎么写
  • 老税号的发票还能认证吗
  • 本期收入及免税收入怎么填
  • rust 入门教程
  • windows where命令
  • 公司注销开户行需要注销吗
  • 代垫运杂费计入原材料成本吗
  • 没进项发票怎么办
  • 企业收到银行未收到怎么做账
  • 织梦的首页怎么换图片
  • 收到发票未抵扣增值税
  • 个人所得税退税退多少钱怎么算
  • 经销商会议是什么意思
  • 收到费用报销单据应该怎么记账?
  • 可以采用
  • 投资性房地产出售
  • 小规模普票怎么开
  • 小规模纳税属于什么科目
  • 施工仪器的主要类别
  • 简单征收的进项税怎么算
  • 车辆挂靠收取管理费怎么做账?
  • 发票已付款,可以开红字吗
  • 补计提上一年度工资
  • 企业职工医院收入怎么样
  • 简易计税转出
  • 物流到付如何做账务处理
  • 税务代扣社保怎么办理?
  • bios 设置
  • xp系统还原系统
  • 虚拟机ubuntu怎么用
  • win8的安全中心
  • win10h2版本
  • 内存使用过低
  • 如何将windows 10
  • WIN10更新失败
  • win10mobile下载官网
  • 批处理中如何判断当前文件中是否存在一个子目录
  • 用python编写登录程序
  • nodejs的理解
  • 在shell脚本中$用于
  • activity间数据传递
  • shell脚本中判断grep的结果
  • python修改图片背景
  • 有哪些比较好的android的框架
  • 用js实现类的方法
  • pycharm使用教程2022
  • 12366纳税服务热线坐席人员
  • 为什么企业减少注册资金的原因
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设