位置: 编程技术 - 正文

基于Python实现对PDF文件的OCR识别(利用python进行)

编辑:rootadmin

推荐整理分享基于Python实现对PDF文件的OCR识别(利用python进行),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:基于python的数据处理案例,基于python的,基于python的,基于python语言,基于python的数据处理案例,利用python进行,基于python语言,利用python进行,内容如对您有帮助,希望把文章链接给更多的朋友!

最近在做一个项目的时候,需要将PDF文件作为输入,从中输出文本,然后将文本存入数据库中。为此,我找寻了很久的解决方案,最终才确定使用tesseract。所以不要浪费时间了,我们开始吧。

1.安装tesseract

在不同的系统中安装tesseract非常容易。为了简便,我们以Ubuntu为例。

在Ubuntu中你仅仅需要运行以下命令:

这将会安装支持3种不同语言的tesseract。

2.安装PyOCR

现在我们还需要安装tesseract的Python接口。幸运的是,有许多出色的Python接口。

我们采用最新的一个:

3.安装Wand和PIL

在我们开始之前,还需要另外安装两个依赖包。一个是Wand。它是Imagemagick的Python接口。

我们需要使用它来将PDF文件转换成图像:

基于Python实现对PDF文件的OCR识别(利用python进行)

我们也需要PIL因为PyOCR需要使用它。你可以查看官方文档以确定如何将PIL安装到你的操作系统中。

4.热身

让我们开始我们的脚本吧。首先,我们需要导入一些重要的库:

注意:我将从PIL导入的Image模块改名为PI了,因为如果不这样做的话,它将和wand.image模块发生重名冲突。

5.开始

现在我们需要获得OCR库(在本例中,即tesseract)的句柄以及我们在PyOCR中将使用的语言:

我们使用tool.get_available_languages里的第二种语言,因为之前我曾尝试过,第二种语言就是英语。

接着,我们需要建立两个列表,用于存储我们的图像和最终的文本。

下一步,我们需要采用wand将一个PDF文件转成jpeg文件。让我们试一试吧!

注意:将PDF_FILE_NAME替换成当前路径下的一个可用的PDF文件名。

wand已经将PDF中所有的独立页面都转成了独立的二进制图像对象。我们可以遍历这个大对象,并把它们加入到req_image序列中去。

现在,我们仅仅需要在图像对象上运行OCR即可,非常简单:

现在,所有识别出的文本已经加到了final_text序列中了。你可以任意地使用它。

标签: 利用python进行

本文链接地址:https://www.jiuchutong.com/biancheng/386253.html 转载请保留说明!

上一篇:利用Python实现命令行版的火车票查看器(pytho命名规则)

下一篇:Python脚本处理空格的方法(如何用python编写脚本处理数据)

  • 收到个税返还手续费怎么算增值税附加
  • 公司车辆过户给个人车牌可以保留吗
  • 小规模纳税人已过开票截止日期禁止开票怎么办
  • 进项税转出的会计处理方法
  • 住宿费收据属于什么凭证
  • 兼职是属于劳动报酬吗
  • 期初是什么
  • 无形资产计税依据
  • 红字发票信息表填好后再怎么操作
  • 以前年度多计成本,本年度冲减成本
  • 利息费用需要取消吗
  • 跨月未抵扣的专用发票开红字发票
  • 股东贷款企业贷债务
  • 会计准则一般选择哪个
  • 主办会计和会计助理的区别
  • 1697507434
  • 固定资产无偿移交怎么做账
  • 高价转让股份
  • 营改增后还要交营业税吗
  • 王者荣耀中如何隐藏贵族标志
  • 外购的形式
  • 电脑到u盘
  • 汽车修理公司的成本怎么核算
  • 长期待摊费用的概念
  • php常用的设计模式在开发中的实例
  • 报销差旅费怎么算
  • kavsvc.exe - kavsvc是什么进程 有什么作用
  • mac怎么写代码
  • 劳务报酬所得与经营所得
  • 其他应收款和其他应付款常常被用作抵消
  • 如何通过利润表看企业收益
  • 各级税务机关应当遵循依法
  • php imagefill
  • 工商年报的社保缴费基数怎么算
  • php获取文件内容的函数
  • 公司收取保证金违法吗
  • php bind_result
  • php修改头像
  • 允许加计扣除的委托境外研发费用
  • 前端大佬都有谁
  • touch命令创建多个文件
  • slf4j、log4j2及logback使用
  • 物流企业会计核算的具体内容包括
  • chrome网上应用商店在哪
  • PureFTP借助MySQL实现用户身份验证的操作教程
  • 劳务成本 科目
  • 对方开具红字发票,我方怎么查询
  • 库存商品期末为负数
  • 人力公司开的代驾发票
  • 广告费用怎么做账
  • 根据银行回单做凭证
  • 会计中结转属于什么科目
  • mysql第四章
  • centos 7.5 7.6
  • winxp纯净版系统
  • wcu.exe是什么
  • linux环境和常用命令
  • vim 多窗口启动以及相互切换
  • centos7修复安装
  • 怎么设置开机启动项?
  • linux条件判断
  • win8系统如何卸载软件
  • centos简介
  • Msssrv.exe - Msssrv是什么进程 有什么用
  • unity 3d
  • javascript 浏览器
  • 一个简单的小实验
  • bat批处理命令大全
  • perl怎么用
  • perl怎么读取文件
  • 如何ssh登陆
  • 获取linux命令执行结果
  • 常用服务器配置
  • 注册表危险组件怎么安装
  • 天津租房网个人房源出租
  • 广西税务12366怎么查询发票
  • 山西省税务局政审县级还是市级的
  • 电子税务局怎么添加开票员
  • 税务局高风险人员有啥影响
  • 东莞国税咨询电话
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设