位置: 编程技术 - 正文

基于Python实现对PDF文件的OCR识别(利用python进行)

编辑:rootadmin

推荐整理分享基于Python实现对PDF文件的OCR识别(利用python进行),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:基于python的数据处理案例,基于python的,基于python的,基于python语言,基于python的数据处理案例,利用python进行,基于python语言,利用python进行,内容如对您有帮助,希望把文章链接给更多的朋友!

最近在做一个项目的时候,需要将PDF文件作为输入,从中输出文本,然后将文本存入数据库中。为此,我找寻了很久的解决方案,最终才确定使用tesseract。所以不要浪费时间了,我们开始吧。

1.安装tesseract

在不同的系统中安装tesseract非常容易。为了简便,我们以Ubuntu为例。

在Ubuntu中你仅仅需要运行以下命令:

这将会安装支持3种不同语言的tesseract。

2.安装PyOCR

现在我们还需要安装tesseract的Python接口。幸运的是,有许多出色的Python接口。

我们采用最新的一个:

3.安装Wand和PIL

在我们开始之前,还需要另外安装两个依赖包。一个是Wand。它是Imagemagick的Python接口。

我们需要使用它来将PDF文件转换成图像:

基于Python实现对PDF文件的OCR识别(利用python进行)

我们也需要PIL因为PyOCR需要使用它。你可以查看官方文档以确定如何将PIL安装到你的操作系统中。

4.热身

让我们开始我们的脚本吧。首先,我们需要导入一些重要的库:

注意:我将从PIL导入的Image模块改名为PI了,因为如果不这样做的话,它将和wand.image模块发生重名冲突。

5.开始

现在我们需要获得OCR库(在本例中,即tesseract)的句柄以及我们在PyOCR中将使用的语言:

我们使用tool.get_available_languages里的第二种语言,因为之前我曾尝试过,第二种语言就是英语。

接着,我们需要建立两个列表,用于存储我们的图像和最终的文本。

下一步,我们需要采用wand将一个PDF文件转成jpeg文件。让我们试一试吧!

注意:将PDF_FILE_NAME替换成当前路径下的一个可用的PDF文件名。

wand已经将PDF中所有的独立页面都转成了独立的二进制图像对象。我们可以遍历这个大对象,并把它们加入到req_image序列中去。

现在,我们仅仅需要在图像对象上运行OCR即可,非常简单:

现在,所有识别出的文本已经加到了final_text序列中了。你可以任意地使用它。

标签: 利用python进行

本文链接地址:https://www.jiuchutong.com/biancheng/386253.html 转载请保留说明!

上一篇:利用Python实现命令行版的火车票查看器(pytho命名规则)

下一篇:Python脚本处理空格的方法(如何用python编写脚本处理数据)

  • 新冠肺炎捐赠账务处理
  • 所得税费用需要抽凭吗
  • 现金及现金等价物期末余额
  • 个税申报信息怎么恢复
  • 连续三个月发烧怎么回事
  • 财务报表申报有税额吗
  • 按季度申报,利润表中所得税费用怎么算出来的
  • 招标文件费属于哪类税收编码
  • 个人借款给公司利息收入要交税吗
  • 固定资产抵扣新政策2022
  • 境外企业国内签订合同如何缴纳印花税?
  • 个人账户付款可以开公司发票吗
  • 同程旅行酒店预订
  • 停车服务费的税率
  • 可转债税前收益和税后收益
  • 什么时候抵扣增值税
  • 企业可以采用在产品按固定成本计算法的有
  • 所得税纳税调增调减怎么理解
  • 成品油生产企业身份归类管理办法
  • 应付账款是贵公司欠还是欠贵公司
  • windows11安装后卡顿
  • 联想旧电脑怎么连接wifi
  • linux修改分区uuid
  • 进项大于销项会计分录
  • 收取水电费如何开票
  • windows11怎么设置默认应用
  • 销售折扣收货方法有哪些
  • 先开票后发货开票时确认收入
  • 解决胃胀气最快方法
  • wordpress怎么搜索域名
  • php连接数据库代码是什么
  • PHP:imagefontheight()的用法_GD库图像处理函数
  • php日期差数
  • 什么是重大会计事务所
  • yii框架安装
  • Joomla调用系统自带编辑器的实现方法
  • 定额发票丢失了怎么补办
  • 俄勒冈zip
  • php url函数
  • 发票勾选平台进入后没有什么内容
  • 帝国cms视频教程
  • 发票抬头为个人的纳税人识别号
  • mysql union or
  • 代扣代缴个人社保账务处理
  • pythonzen
  • 金税盘发票报送失败怎么办
  • 高新企业申请流程
  • 企业的股息红利所得要交税吗
  • 低值易耗品如何界定
  • 支出应计入管理费用,而且要根据其发生额
  • 外贸出口企业退税查不到进项发票
  • 在记账过程中,可能发生各种各样的差错
  • 住宿补贴需要交个税吗
  • 分公司可以独立签约吗
  • 什么是一般生产要素
  • 企业发生的经济业务主要有哪些
  • 公司法人借款给企业属于关联交易吗?
  • 制造费用如何结转生产成本
  • sql server数据库中的null(空值)
  • rhel7.5重置密码
  • win10快速操作怎么调出来
  • u盘安装mac系统
  • ubuntu系统虚拟机运行
  • win7复制文件到system32没有权限
  • linux系统基础教程
  • shine.exe - shine是什么进程 有什么用
  • win10 edge浏览器崩溃
  • linux安装的命令是啥
  • windows8功能设置
  • cocos2d-x教程
  • Node.js中的全局对象有
  • 复制到文件夹怎么弄
  • 相同目录
  • jquery中常用动画方法有哪些
  • javascript如何定义函数
  • 重庆办理4050社保需要什么材料
  • 2016年小微企业所得税优惠政策文号
  • 河北省税务局地址邮编
  • 福建省网上税务办事大厅
  • 盐城国税电话
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设