位置: 编程技术 - 正文

基于Python实现对PDF文件的OCR识别(利用python进行)

编辑:rootadmin

推荐整理分享基于Python实现对PDF文件的OCR识别(利用python进行),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:基于python的数据处理案例,基于python的,基于python的,基于python语言,基于python的数据处理案例,利用python进行,基于python语言,利用python进行,内容如对您有帮助,希望把文章链接给更多的朋友!

最近在做一个项目的时候,需要将PDF文件作为输入,从中输出文本,然后将文本存入数据库中。为此,我找寻了很久的解决方案,最终才确定使用tesseract。所以不要浪费时间了,我们开始吧。

1.安装tesseract

在不同的系统中安装tesseract非常容易。为了简便,我们以Ubuntu为例。

在Ubuntu中你仅仅需要运行以下命令:

这将会安装支持3种不同语言的tesseract。

2.安装PyOCR

现在我们还需要安装tesseract的Python接口。幸运的是,有许多出色的Python接口。

我们采用最新的一个:

3.安装Wand和PIL

在我们开始之前,还需要另外安装两个依赖包。一个是Wand。它是Imagemagick的Python接口。

我们需要使用它来将PDF文件转换成图像:

基于Python实现对PDF文件的OCR识别(利用python进行)

我们也需要PIL因为PyOCR需要使用它。你可以查看官方文档以确定如何将PIL安装到你的操作系统中。

4.热身

让我们开始我们的脚本吧。首先,我们需要导入一些重要的库:

注意:我将从PIL导入的Image模块改名为PI了,因为如果不这样做的话,它将和wand.image模块发生重名冲突。

5.开始

现在我们需要获得OCR库(在本例中,即tesseract)的句柄以及我们在PyOCR中将使用的语言:

我们使用tool.get_available_languages里的第二种语言,因为之前我曾尝试过,第二种语言就是英语。

接着,我们需要建立两个列表,用于存储我们的图像和最终的文本。

下一步,我们需要采用wand将一个PDF文件转成jpeg文件。让我们试一试吧!

注意:将PDF_FILE_NAME替换成当前路径下的一个可用的PDF文件名。

wand已经将PDF中所有的独立页面都转成了独立的二进制图像对象。我们可以遍历这个大对象,并把它们加入到req_image序列中去。

现在,我们仅仅需要在图像对象上运行OCR即可,非常简单:

现在,所有识别出的文本已经加到了final_text序列中了。你可以任意地使用它。

标签: 利用python进行

本文链接地址:https://www.jiuchutong.com/biancheng/386253.html 转载请保留说明!

上一篇:利用Python实现命令行版的火车票查看器(pytho命名规则)

下一篇:Python脚本处理空格的方法(如何用python编写脚本处理数据)

  • 税前扣除凭证按照用途分为哪些
  • 出口退税计算公式 中华会计网校
  • 小规模纳税人分红税率
  • 公对公退款要交税吗
  • 民办非企业捐赠承诺书
  • 财务专用章的重要性
  • 购买业务委托书计入什么科目
  • 公司的钱交完税之后可以转到个人吗
  • 如何在房产证上加父母名字
  • 接受虚开增值税 经侦立案
  • 如何理解递延所得税资产和负债计算
  • 应付账款坏账处理说明
  • 废料账务处理
  • 开办费所得税清缴时如何调整
  • 其他应收款对方科目是啥
  • 一般纳税人所得税优惠政策
  • 变更办税人需要原办税人去吗
  • 小规模增值税专票税率
  • 网税系统用户名和密码
  • 进的货没有入库怎么处理
  • 不动产租金收入缴纳增值税
  • 穿越火线改名卡买完了怎么用
  • 文件夹不能打开没有反应
  • 去年的发票今年怎么做会计分录
  • 反结账是什么意思怎么取消
  • 华为手机悬浮导航是干什么用
  • 电脑运行慢怎么清理c盘
  • 税务部门罚没收入计入什么科目
  • win10电脑记事本打不开显示错误
  • win10商店无法加载
  • php常用设计模式(大总结)
  • 生产型企业出口退税会计分录
  • kavsvc.exe - kavsvc是什么进程 有什么作用
  • 雄性和雌性的匹配
  • 接受赠品的账务处理流程
  • 以银行存款交纳欠缴税金会计分录
  • 固定资产属于资产要素吗
  • 编制合并财务报表的程序主要包括
  • 企业所得税是地税申报还是国税申报
  • 蓝色龙舌兰花语
  • let,const,var区别
  • 给深度学习研究生的入门建议(未完待续ing)
  • elementui的upload组件详解
  • 宝塔主机分销系统设计
  • 应收账款保理会计处理相关会计准则
  • 企业一般账户开户申请理由
  • 购买备用品会计分录
  • mongodb基础知识
  • 公司购入的发明产品
  • 税务局退的税款如何做账
  • 固定资产的入账时间应该是什么时间
  • 企业会计准则在建工程转固定资产
  • 公司法人代表可以有几个
  • 待处理流动资产损失属于什么科目
  • 税控盘的进项税在哪里申报
  • 给天猫开的服务怎么关闭
  • 销售增长率计算公式财务管理
  • 企业的业务招待费属于什么费用
  • 销售收入怎么入账
  • 劳务费个税账务处理办法
  • 消耗品清单
  • 个体工商户不经营需要税务登记吗
  • 残保金缴纳计算方法2021
  • 计提附加税减半征收会计分录
  • windows不能打开此文件result:31
  • centos6.5升级到7.5
  • windows7触摸
  • win7网络连接不显示
  • linux如何用
  • 电脑cf截图保存在哪里
  • node.js实战
  • 自动上传文件
  • python里的迭代器
  • python做应用软件界面
  • python socket编程步骤
  • jquery的循环
  • 教师十三薪是什么意思
  • 关税下降的好处
  • 房地产开发企业资质管理规定
  • 零申报的企业残保金怎么申报
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设