位置: 编程技术 - 正文

基于Python实现对PDF文件的OCR识别(利用python进行)

编辑:rootadmin

推荐整理分享基于Python实现对PDF文件的OCR识别(利用python进行),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:基于python的数据处理案例,基于python的,基于python的,基于python语言,基于python的数据处理案例,利用python进行,基于python语言,利用python进行,内容如对您有帮助,希望把文章链接给更多的朋友!

最近在做一个项目的时候,需要将PDF文件作为输入,从中输出文本,然后将文本存入数据库中。为此,我找寻了很久的解决方案,最终才确定使用tesseract。所以不要浪费时间了,我们开始吧。

1.安装tesseract

在不同的系统中安装tesseract非常容易。为了简便,我们以Ubuntu为例。

在Ubuntu中你仅仅需要运行以下命令:

这将会安装支持3种不同语言的tesseract。

2.安装PyOCR

现在我们还需要安装tesseract的Python接口。幸运的是,有许多出色的Python接口。

我们采用最新的一个:

3.安装Wand和PIL

在我们开始之前,还需要另外安装两个依赖包。一个是Wand。它是Imagemagick的Python接口。

我们需要使用它来将PDF文件转换成图像:

基于Python实现对PDF文件的OCR识别(利用python进行)

我们也需要PIL因为PyOCR需要使用它。你可以查看官方文档以确定如何将PIL安装到你的操作系统中。

4.热身

让我们开始我们的脚本吧。首先,我们需要导入一些重要的库:

注意:我将从PIL导入的Image模块改名为PI了,因为如果不这样做的话,它将和wand.image模块发生重名冲突。

5.开始

现在我们需要获得OCR库(在本例中,即tesseract)的句柄以及我们在PyOCR中将使用的语言:

我们使用tool.get_available_languages里的第二种语言,因为之前我曾尝试过,第二种语言就是英语。

接着,我们需要建立两个列表,用于存储我们的图像和最终的文本。

下一步,我们需要采用wand将一个PDF文件转成jpeg文件。让我们试一试吧!

注意:将PDF_FILE_NAME替换成当前路径下的一个可用的PDF文件名。

wand已经将PDF中所有的独立页面都转成了独立的二进制图像对象。我们可以遍历这个大对象,并把它们加入到req_image序列中去。

现在,我们仅仅需要在图像对象上运行OCR即可,非常简单:

现在,所有识别出的文本已经加到了final_text序列中了。你可以任意地使用它。

标签: 利用python进行

本文链接地址:https://www.jiuchutong.com/biancheng/386253.html 转载请保留说明!

上一篇:利用Python实现命令行版的火车票查看器(pytho命名规则)

下一篇:Python脚本处理空格的方法(如何用python编写脚本处理数据)

  • 公司出售房产缴纳税金如何凭证
  • 增值税税率是怎么规定的
  • 税收实体法和程序法分类
  • 机动车统一发票税率多少
  • 个人所得税年度汇算时间
  • 报销金额大于发票金额几毛钱
  • 税控盘服务费减免税会计分录
  • 餐饮企业销售外购食品 增值税税率cpa
  • 业务招待费列支内容
  • 税务登记注销前异常项目类型非强制什么意思
  • 6000万居间费如何避税
  • 年末发票
  • 出口样品账务处理
  • 付款方式公对公什么意思
  • 职工福利部门的工资
  • 拆除固定资产的补偿款
  • 如何知道企业是查账征收还是核定征收
  • 所得税季报固定资产加速折旧表资产原值
  • 签合同交什么照片比较好
  • 房地产营改增后开票
  • 无偿取得土地使用权的会计分录
  • 公司内部银行往来款会计分录
  • 关于递延所得税的例题
  • 租房押金收不回来怎么做账
  • 委托代理出口能否办理退税
  • 去年开的增值税普通发票今年可以作废吗
  • 企业所得税按月或者按季预缴
  • 企业取得财政拨款怎么算
  • 微信公众号开发php源码
  • php使用while循环计算1到100的和
  • 微信小程序开发一个多少钱
  • 逾期未退保证金怎么办
  • 个人所得税必须交吗
  • wordpress自定义api
  • 代码怎么用?
  • html中display none
  • 超市发票是普票还是专票
  • 深拷贝的实现方式
  • gpts
  • web后端开发是什么意思
  • 开源ei
  • 删除cmd命令记录
  • 所有者权益总计是什么
  • 水利建设税根据什么申报
  • MySQL主从数据库搭建
  • 营业外支出影响企业利润吗
  • java实现打印
  • 营业总收入和营业利润
  • sqlserver2012无法新建表
  • 基本存款账户可以办理
  • 残疾人就业保障金
  • 企业事业结余科目有哪些
  • 什么叫同级财政收支
  • 事业单位财政直拔工资误填为劳务费怎么写情况说明
  • 留底税额怎么形成的
  • 超市现金券模板
  • 工程类的增值税
  • 其他应收款对应的预算会计
  • 不含税转换
  • 产权交易所交易流程
  • 进项大于销项如何做分录
  • 食品发票可以报销吗怎么报销
  • 养老保险滞纳金计算器
  • 怎么调整原材料的数量和单价
  • 记账发生错账怎么办
  • linux根文件系统直接解压到硬盘
  • 2021年win10累积更新
  • redhat linux 7.2系统安装详细过程
  • Win10预览版镜像
  • win7 win8.1双系统安装教程
  • linux下VSFTP 530 Permission denied错误的解决办法
  • mmap实现原理
  • jquery函数定义
  • js获取文本框的值进行计算
  • Developing for Android, III: The Rules: Performance
  • jquery图片轮播插件slick不动
  • 湖南低保查询网上查询
  • 本年累计实际已预缴的所得税额怎么填
  • 伊川娘娘山传说
  • 新沂恩华大药房会员日
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设