位置: 编程技术 - 正文

Python for Informatics 第11章之正则表达式(四)

编辑:rootadmin

推荐整理分享Python for Informatics 第11章之正则表达式(四),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

注:以下文章原文来自于Dr Charles Severance 的 《Python for Informatics》

.3 组合查询和抽取

  如果我们想以“X-”字符串开头的行中找到数字,就像下面两行字符串:

X-DSPAM-Confidence: 0.X-DSPAM-Probability: 0.

  但我们不只是要任意行中的任意浮点数,而是具备上面格式的行中的数字。

  我们可以创建以下正则表达式来选择这样的行:

^X-.*: [0-9.]+

  这个表达式的含义是以“X-”两个字符开头,后面跟了任意个字符“.*",接着是一个冒号":"和空格" ",在空格之后呢是一个及以上的数字或小数点“[0-9.]+”。大家要注意的是方括号中的"[.]"不是匹配任何字符,而是匹配真正的".",这与方括号外的"."要予以区分。

  这是一个非常紧凑的表达式,它将非常匹配我们感兴趣的行:

  当我们运行这个程序,我们可以看到我们想要的数据被完美的过滤显示。

X-DSPAM-Confidence: 0.X-DSPAM-Probability: 0.X-DSPAM-Confidence: 0.X-DSPAM-Probability: 0.

  但是我们必须使用split解决提取数字的问题。然而当这个问题简单到能用split解决时,我们可以使用正则表达式的另一特点,一步达到查找和解析功能。

  圆括号()是正则表达式中的另一特殊字符。当我们添加圆括号至表达式中,在字符串的匹配过程中它们将被忽略,但是当你使用findall()时,圆括号表示你想整个正则表达式被匹配,但是你只抽取位于圆括号内你感兴趣的那部分字符串。

  所以我们对程序修改如下:

  我们在正则表达式中对匹配浮点数字部分添加圆括号,并且用findall()代替search(),返回我们想要的浮点数字部分。这个程序的输出如下:

['0.']['0.']['0.']['0.']['0.']['0.']..

  虽然这些在列表中的数字还需要从字符串转换为浮点数,但是我们应用正则表达式的能力同时查找和抽取了我们感兴趣的的信息。

  下面是使用这个技巧的另一个案例。如果你查看文件,你会发现有许多行是这样的格式:

Python for Informatics 第11章之正则表达式(四)

Details:   如果我们想用同样的技巧抽取所有修订号(行末尾的整数),我们可以这样编写代码:

  我们的正则表达式的是这样的,以"Details:"开头,之后可以是任意字符”.*",然后是"rev=",最后是一个以上的数字。我们希望行是匹配整个正则表达式,但我们只需要圆括号中"[0-9]+"的数字。当我们运行程序时,将得到以下输出:

['']['']['']['']...

  记住,"[0-9]+"是贪婪的,它将尝试抽取任何可能的数字,所以我们得到的每个字符串都有五个数字。正则表达式库在行的开头和结尾两个方向进行扩展,只到它数到一个非数字的字符。

  我们可以用正则表达式重做本书先前的一个练习。在这个练习中我们对每个邮件的时间感兴趣,我们寻找的行的格式如下:

From stephen.marquard@uct.ac.za Sat Jan 5 ::

  并且我们想抽取每一行中日期中的小时信息。先前我们通过两次调用split实现。第一次我们将行分离成单词,然后我们对第五个单词基于冒号再次分离,拉出我们感兴趣的两个字符。

  假定要查找的行是良好格式化的,那么只要想到少的代码就可以实现。但是当你为确保程序中碰到不具备这样格式而失效,而添加必要的错误检验(或者一个try/except块)时,这个代码将会膨胀到-行,并且难以读懂。

  我们可以用下面的正则表达式使工作更简单:

^From .* [0-9][0-9]:

  这个表达式的含义是以"From "开头(注意空格),然后跟着任意个字符".*",接着又是一个空格,然后是两个数字"[0-9][0-9]",再接着是一个冒号。我们要找的就是具备这样格式的行。

  为了在findall中只抽出表示小时的两位数字,我们将表达式修改如下:

^From .* ([0-9][0-9]):

 最后这个程序是这样的:

  程序运行结果如下:

['']['']['']['']...

相关阅读:

Python for Informatics 第章 正则表达式(一)

Python for Informatics 第章之正则表达式(二)

关于Python for Informatics 第章之正则表达式(四)就给大家介绍到这里,希望对大家有所帮助。后续还会持续更新,更多精彩内容敬请关注!

python中PIL安装简单教程 python的PIL安装是一件很头疼的的事,如果你要在python中使用图型程序那怕只是将个图片从二进制流中存盘(例如使用Scrapy爬网存图),那么都会使用到PIL这库,

Django小白教程之Django用户注册与登录 Django是由Python开发的一个免费的开源网站框架,可以用于快速搭建高性能,优雅的网站!学习django学得超级吃力,最近弄个最简单的用户登录与注册界

Python开发之快速搭建自动回复微信公众号功能 在之前的一篇文章Python利用AIML和Tornado搭建聊天机器人微信订阅号中用aiml实现了一个简单的英文聊天机器人订阅号。但是只能处理英文消息,现在用图

标签: Python for Informatics 第11章之正则表达式(四)

本文链接地址:https://www.jiuchutong.com/biancheng/385327.html 转载请保留说明!

上一篇:Python for Informatics 第11章之正则表达式(二)

下一篇:python中PIL安装简单教程(python3.6安装pil)

  • 产权式酒店规定
  • 产权转移数据的交易价格和固定资产科目
  • 工资延期发放最多不能超过多少天
  • 发票勾选是否为转内销凭证是什么意思
  • 城市生活垃圾费是业主出还是物业出
  • 小规模纳税人季报是哪几个月
  • 什么情况下做暂估
  • 无形资产建造期间的摊销记在哪里
  • 在登记账簿时,应在记账凭证上注明所记账簿的页数
  • 发票存在哪些税务风险?
  • 纳税人领购普通发票要求
  • 按月计提短期借款利息12000元
  • 低值易耗品摊销借贷方向
  • 餐饮招待怎么入账
  • 过渡期申报什么意思
  • 国税电子钥匙常见问题解答
  • 房贷利息在哪里能看到
  • 个人转账收入要缴税吗
  • 电子票据查询打印
  • 走物流的货物如何收费
  • 到期一次还本付息的利息怎么算
  • 收到客户赔偿款计入什么科目
  • 如何解决win10系统复制文件速度
  • vue中的...
  • 测速网在线测速
  • 单位向员工出租房屋要交增值税吗
  • win10怎么推送win11
  • 代理进口合同如何签署
  • 企业期末营业利润分录
  • 从上布法罗荒野地区的惠特克顶小道向东看,阿肯色州奥沙克国家森林 (© Jens Lambert Photography/Getty Images Plus)
  • 夜晚的地球 (© NASA)
  • 实际成本法核算会计分录
  • 申请高新技术企业的好处
  • 前端报405错误
  • 金蝶专业版固定资产初始数据录入
  • 财务的几张报表
  • 多线程的弊端
  • yolov1 实现
  • opencv 方框识别
  • 自费出版违法吗
  • 残疾人就业保障金计入什么科目
  • js数组 filter
  • 小规模纳税人销售货物税率是多少
  • 售后服务费计提政策
  • 企业适用的增值税税率
  • 出差补贴要不要发票呢?
  • 存货跌价准备的特点
  • 车辆计提折旧需要结转吗
  • 购买其他权益工具投资时发生的交易费用
  • 租办公室自己装修可以拆走吗
  • 在异地施工就要在异地交税吗
  • 税金附加科目有哪些
  • 车辆罚款单可作为费用报销吗
  • 票面利率大于市场利率,则发行价格一定( )面值
  • 分配利润和分配红利
  • 软件开发过程中,一个错误发现的越晚
  • 高新技术企业财务指标
  • 境外所得抵免限额大于境外承担的所得税税额
  • 免征增值税还要计提附加税吗
  • 防伪税控服务费全额抵扣政策
  • 产品成本核算的原则是
  • sql语句 字符串
  • win8打开桌面
  • linux操作系统常用操作命令
  • linux下使用lftp的小结(远程服务器备份)
  • mac文本软件
  • PRISMSTA.EXE - PRISMSTA是什么进程 有什么用
  • linux重复命令
  • Tutorial 6:Translation Transformation
  • jquery实现(textarea)placeholder自动换行
  • python递归函数详解
  • 在python程序中变量名不能用
  • 手游炫酷
  • 留抵税额过多怎么办
  • 宿豫区国税分局电话
  • 纳税信用b级可以贷款多少
  • 转让土地的土地增值税
  • 江苏徐州如何开无犯罪记录证明
  • 国家税务总局服务中心
  • 长春市朝阳区公安局电话
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设