位置: 编程技术 - 正文

Python的re模块正则表达式操作(python re模块findall)

编辑:rootadmin

推荐整理分享Python的re模块正则表达式操作(python re模块findall),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python remi 模块,python3 re模块,python re模块findall,python中的re模块,python的re模块正则的字符串太长怎么加入,python re模块findall,python3 re模块,python remi 模块,内容如对您有帮助,希望把文章链接给更多的朋友!

这个模块提供了与 Perl 相似l的正则表达式匹配操作。Unicode字符串也同样适用。

正则表达式使用反斜杠" "来代表特殊形式或用作转义字符,这里跟Python的语法冲突,因此,Python用" \\ "表示正则表达式中的" ",因为正则表达式中如果要匹配" ",需要用来转义,变成" \ ",而Python语法中又需要对字符串中每一个进行转义,所以就变成了" \\ "。

上面的写法是不是觉得很麻烦,为了使正则表达式具有更好的可读性,Python特别设计了原始字符串(raw string),需要提醒你的是,在写文件路径的时候就不要使用raw string了,这里存在陷阱。raw string就是用'r'作为字符串的前缀,如 r"n":表示两个字符""和"n",而不是换行符了。Python中写正则表达式时推荐使用这种形式。

绝大多数正则表达式操作与 模块级函数或RegexObject方法 一样都能达到同样的目的。而且不需要你一开始就编译正则表达式对象,但是不能使用一些实用的微调参数。

1.正则表达式语法

为了节省篇幅,这里不再叙述了。

2.martch和search的区别

Python提供了两种不同的原始操作:match和search。match是从字符串的起点开始做匹配,而search(perl默认)是从字符串做任意匹配。

注意:当正则表达式是' ^ '开头时,match与search是相同的。match只有当且仅当被匹配的字符串开头就能匹配 或 从pos参数的位置开始就能匹配 时才会成功。如下:

>>> import re >>> re.match("c", "abcdef") >>> re.search("c","abcdef") <_sre.SRE_Match object at 0xA9A>>>> re.match("c", "cabcdef") <_sre.SRE_Match object at 0xA9AB>>>> re.search("c","cabcdef") <_sre.SRE_Match object at 0xAF>>>> patterm = re.compile("c") >>> patterm.match("abcdef") >>> patterm.match("abcdef",1) >>> patterm.match("abcdef",2) <_sre.SRE_Match object at 0xA9AB>

3.模块内容

re.compile(pattern, flags=0)

编译正则表达式,返回RegexObject对象,然后可以通过RegexObject对象调用match()和search()方法。

prog = re.compile(pattern)result = prog.match(string)

result = re.match(pattern, string)

是等价的。

第一种方式能实现正则表达式的重用。

re.search(pattern, string, flags=0)

在字符串中查找,是否能匹配正则表达式。返回_sre.SRE_Match对象,如果不能匹配返回None。

re.match(pattern, string, flags=0)

字符串的开头是否能匹配正则表达式。返回_sre.SRE_Match对象,如果不能匹配返回None。

re.split(pattern, string, maxsplit=0)

通过正则表达式将字符串分离。如果用括号将正则表达式括起来,那么匹配的字符串也会被列入到list中返回。maxsplit是分离的次数,maxsplit=1分离一次,默认为0,不限制次数。

>>> re.split('W+', 'Words, words, words.') ['Words', 'words', 'words', ''] >>> re.split('(W+)', 'Words, words, words.') ['Words', ', ', 'words', ', ', 'words', '.', ''] >>> re.split('W+', 'Words, words, words.', 1) ['Words', 'words, words.'] >>> re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)

注意:我使用的Python是2.6,查看源代码发现split()并没有flags的参数,2.7才增加。这种问题我发现不止一次了,官方的文档 跟 源码不一致的现象,如果发现异常,应该去源码中找找原因。

如果在字符串的开始或结尾就匹配,返回的list将会以空串开始或结尾。

>>> re.split('(W+)', '...words, words...') ['', '...', 'words', ', ', 'words', '...', '']

如果字符串不能匹配,将会返回整个字符串的list。

>>> re.split("a","bbb") ['bbb']

re.findall(pattern, string, flags=0)

找到 RE 匹配的所有子串,并把它们作为一个列表返回。这个匹配是从左到右有序地返回。如果无匹配,返回空列表。

>>> re.findall("a","bcdef") []

Python的re模块正则表达式操作(python re模块findall)

>>> re.findall(r"d+","abcjf3") ['', '', '', '3']

re.finditer(pattern, string, flags=0)

找到 RE 匹配的所有子串,并把它们作为一个迭代器返回。这个匹配是从左到右有序地返回。如果无匹配,返回空列表。

>>> it = re.finditer(r"d+","abcjf3") >>> for match in it: print match.group()

re.sub(pattern, repl, string, count=0, flags=0)

找到 RE 匹配的所有子串,并将其用一个不同的字符串替换。可选参数 count 是模式匹配後替换的最大次数;count 必须是非负整数。缺省值是 0 表示替换所有的匹配。如果无匹配,字符串将会无改变地返回。

re.subn(pattern, repl, string, count=0, flags=0)

与re.sub方法作用一样,但返回的是包含新字符串和替换执行次数的两元组。

re.escape(string)

对字符串中的非字母数字进行转义

re.purge()

清空缓存中的正则表达式

4.正则表达式对象

re.RegexObject

re.compile()返回RegexObject对象

re.MatchObject

group()返回被 RE 匹配的字符串

start()返回匹配开始的位置

end()返回匹配结束的位置

span()返回一个元组包含匹配 (开始,结束) 的位置

5.编译标志

编译标志让你可以修改正则表达式的一些运行方式。在 re 模块中标志可以使用两个名字,一个是全名如 IGNORECASE,一个是缩写,一字母形式如 I。(如果你熟悉 Perl 的模式修改,一字母形式使用同样的字母;例如 re.VERBOSE的缩写形式是 re.X。)多个标志可以通过按位 OR-ing 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志:

I IGNORECASE

使匹配对大小写不敏感;字符类和字符串匹配字母时忽略大小写。举个例子,[A-Z]也可以匹配小写字母,Spam 可以匹配 "Spam", "spam", 或 "spAM"。这个小写字母并不考虑当前位置。

L LOCALE

影响 "w, "W, "b, 和 "B,这取决于当前的本地化设置。

locales 是 C 语言库中的一项功能,是用来为需要考虑不同语言的编程提供帮助的。举个例子,如果你正在处理法文文本,你想用 "w+ 来匹配文字,但 "w 只匹配字符类 [A-Za-z];它并不能匹配 "é" 或 "&#;"。如果你的系统配置适当且本地化设置为法语,那么内部的 C 函数将告诉程序 "é" 也应该被认为是一个字母。当在编译正则表达式时使用 LOCALE 标志会得到用这些 C 函数来处理 "w 後的编译对象;这会更慢,但也会象你希望的那样可以用 "w+ 来匹配法文文本。

M MULTILINE

(此时 ^ 和 $ 不会被解释; 它们将在 4.1 节被介绍.)

使用 "^" 只匹配字符串的开始,而 $ 则只匹配字符串的结尾和直接在换行前(如果有的话)的字符串结尾。当本标志指定後, "^" 匹配字符串的开始和字符串中每行的开始。同样的, $ 元字符匹配字符串结尾和字符串中每行的结尾(直接在每个换行之前)。

S DOTALL

使 "." 特殊字符完全匹配任何字符,包括换行;没有这个标志, "." 匹配除了换行外的任何字符。

X VERBOSE

该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。当该标志被指定时,在 RE 字符串中的空白符被忽略,除非该空白符在字符类中或在反斜杠之後;这可以让你更清晰地组织和缩进 RE。它也可以允许你将注释写入 RE,这些注释会被引擎忽略;注释用 "#"号 来标识,不过该符号不能在字符串或反斜杠之後。

最后:如果能用字符串的方法,就不要选择正则表达式,因为字符串方法更简单快速。

Python的Twisted框架上手前所必须了解的异步编程思想 前言最近有人在Twisted邮件列表中提出诸如"为任务紧急的人提供一份Twisted介绍"的需求。值得提前透露的是,这个系列并不会如他们所愿。尤其是介绍Twis

使用Python的Twisted框架构建非阻塞下载程序的实例教程 第一个twisted支持的诗歌服务器尽管Twisted大多数情况下用来写服务器代码,但为了一开始尽量从简单处着手,我们首先从简单的客户端讲起。让我们来试

Python的Twisted框架中使用Deferred对象来管理回调函数 首先抛出我们在讨论使用回调编程时的一些观点:激活errback是非常重要的。由于errback的功能与except块相同,因此用户需要确保它们的存在。他们并不是

标签: python re模块findall

本文链接地址:https://www.jiuchutong.com/biancheng/386907.html 转载请保留说明!

上一篇:Python的for和break循环结构中使用else语句的技巧(Python的for和in)

下一篇:Python的Twisted框架上手前所必须了解的异步编程思想(pythontrutle)

  • win7安装php框架Yii的方法(php7安装教程详解)

    win7安装php框架Yii的方法(php7安装教程详解)

  • sql语句中单引号嵌套问题(一定要避免直接嵌套)(sql语句中单引号是什么)

    比如下面例子是存储过程里查询时的语句示例

    红色部分是会报错的,应该写成 @condition= 'ROOMTYPElike ‘ ‘%标准间%' ‘ ', 蓝色部分不是双引号,而是两个单引号

    谈谈sqlserver自定义函数与存储过程的区别 一、自定义函数:1.可以返回表变量2.限制颇多,包括不能使用output参数;不能用临时表;函数内部的操作不能影响到外部环境;不能通过select返回结果

    深入分析SqlServer查询计划 对于SQLServer的优化来说,优化查询可能是很常见的事情。由于数据库的优化,本身也是一个涉及面比较的广的话题,因此本文只谈优化查询时如何看懂SQ

    sql 判断字符串中是否包含数字和字母的方法 判断是否含有字母selectPATINDEX('%[A-Za-z]%',‘ads')=0(如果存在字母,结果1)判断是否含有数字PATINDEX('%[0-9]%',‘sdf" class="img-responsive" alt="sql语句中单引号嵌套问题(一定要避免直接嵌套)(sql语句中单引号是什么)">

    sql语句中单引号嵌套问题(一定要避免直接嵌套)(sql语句中单引号是什么)

  • 此数据库没有有效所有者,因此无法安装数据库关系图支持对象(此数据库中不存在用户或角色)

    此数据库没有有效所有者,因此无法安装数据库关系图支持对象(此数据库中不存在用户或角色)

  • sql复制表结构和数据的实现方法(sql复制表的语句)

    sql复制表结构和数据的实现方法(sql复制表的语句)

  • Win7开机桌面跳出wanADT.exe系统错误是怎么回事(win7点开始一直跳闪)

    Win7开机桌面跳出wanADT.exe系统错误是怎么回事(win7点开始一直跳闪)

  • Mac 配置Android环境变量( 有图)(mac安装android)

    Mac 配置Android环境变量( 有图)(mac安装android)

  • js表单验证实例讲解(js表单验证实例怎么写)

    js表单验证实例讲解(js表单验证实例怎么写)

  • 一个挖掘机 Demo 用时一周【狗刨学习网】(一个挖掘机主播得多少钱)

    一个挖掘机 Demo 用时一周【狗刨学习网】(一个挖掘机主播得多少钱)

  • 前端开发的开始---基于面向对象的Ajax类(前端开发的工作流程)

    前端开发的开始---基于面向对象的Ajax类(前端开发的工作流程)

  • 所得税费用包括递延所得税吗
  • 税务会计账务处理
  • 发票隔月作废怎么操作
  • 来料加工出口免税不退税
  • 政府非税收入的种类
  • 申请增值税专用发票需要什么资料
  • 核定征收企业注销后安全吗
  • 营改增后装修材料如何抵扣?
  • 附加税减免税会计处理怎么做?
  • 冲减上年的所得税费用入什么科目?
  • 三级科目称为子目吗
  • 纳税人财务会计核算办法怎么上传
  • 小规模纳税人国企
  • 加权投资年限怎么计算
  • 消防改造费用
  • 购买股权属于什么科目
  • 进项税期末有余额吗
  • 固定资产累计折旧借方表示什么
  • 单位存款账户按用途分为
  • 餐饮个体户税务登记需要什么资料
  • 增值税进项税怎么算
  • php解析原理
  • 财务冲抵如何处理
  • Linux系统中怎么定位到java代码的方法级
  • 收到汇算清缴退税账务处理
  • 什么叫即期结汇
  • PHP:curl_error()的用法_cURL函数
  • 未取得发票的工程预付款怎么入账
  • 一般纳税人未取得增值税专用发票怎么处理
  • 完成认证后开具什么证明
  • php中的表达式简写是什么
  • php对接第三方支付教程
  • shell中put命令
  • 企业收到土地回收怎么办
  • css选择器怎么用
  • 筹建期的财务费用计入
  • 研发费用范围归集不正确
  • 真发票假业务会坐牢吗
  • 租金计入主营业务成本吗
  • 帝国cms首页怎么打开
  • 企业所得税费用怎么算2023年
  • 未收回的货款属于什么会计科目
  • 个人利息收入怎么计算个税
  • 弃置费用怎么处理
  • 银行汇票退票
  • 已开普通发票记账联丢失怎么办?
  • 红字发票抵扣联和发票联要给对方吗
  • 施工企业简易计税的依据
  • 公司帮别人代缴社保要交税吗
  • 负数发票怎么开具?
  • 小企业会计准则主要按照什么计量
  • mysql 性能调优参数
  • centos6.10安装
  • sql中的非逻辑
  • 注册表隐藏桌面图标
  • linux不常用命令
  • 什么叫脚本错误
  • win7怎么调音效
  • 进程process.acore已停止怎么办
  • 华硕和联想笔记本电脑哪个好点
  • lsass.exe在哪个文件夹
  • win8.1关机没反应
  • WIN10系统怎么改成泰语
  • 在linux操作系统中,/etc/rc.d/init.d
  • 如何开启金山毒霸
  • cocos2dx入门
  • cocos2d教程
  • 你所知道的三维建模软件有哪些?
  • 通过intent可以启动哪些组件
  • Android应用程序结构
  • 带你了解处女座
  • android list
  • 批量ssh登录
  • android缓存机制
  • 产品税务编号查询系统官网
  • 王军调研地税局的职务
  • 江西省电子税务局登录入口
  • 北京税务总局
  • 浙江省税务师事务所排名
  • 销售佣金属于什么税目
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设