正则表达式之文本模式的匹配和查找
1、需求
我们想要按照特定的文本模式进行匹配或查找。
2、解决方案
如果想要匹配的只是简单的文字,那么通常只需要用基本的字符串方法就可以了,比如str.find()、str.endswith()、str.startswith()或类似函数。
示例:
text='mark ,帅哥,18,183 帅,mark' print(text=='mark') print(text.startswith('mark')) print(text.startswith('mark')) print(text.find('帅哥'))
结果:
False
True
True
6
如果更为复杂的匹配则需要使用正则表达式以及re模块。为了说明使用正则表达式的基本流程,假设我们想匹配以数字形式构成的日期,比如"11/27/2018"。示例如下:
import re text1='11/27/2018' text2='Nov 27, 2018' if re.match(r'\d+/\d+/\d+',text1): print('符合模型:数字/数字/数字') else: print('不符合模型:数字/数字/数字') if re.match(r'\d+/\d+/\d+',text2): print('符合模型:数字/数字/数字') else: print('不符合模型:数字/数字/数字')
运行结果:
符合模型:数字/数字/数字
不符合模型:数字/数字/数字
如果打算针对同一模型做多次匹配,那么通常会先将正则表达式模式预编译成一个模式对象。
例如:
import re text1='11/27/2018' text2='Nov 27, 2018' datepat=re.compile(r'\d+/\d+/\d+') if datepat.match(text1): print('符合模型:数字/数字/数字') else: print('不符合模型:数字/数字/数字') if datepat.match(text2): print('符合模型:数字/数字/数字') else: print('不符合模型:数字/数字/数字')
结果:
符合模型:数字/数字/数字
不符合模型:数字/数字/数字
match()方法总是尝试在字符串的开头找到匹配项。如果想针对整个文本搜索出所有的匹配项,那么就应该使用findall()方法,例如:
import re text='今天是 11/27/2018,昨天是11/26/2018' datepat=re.compile(r'\d+/\d+/\d+') print(datepat.findall(text))
运行结果:
['11/27/2018', '11/26/2018']
当定义正则表达式时,我们常会将部分模式用括号包起来的方式引入捕获组,捕获组通常简化后续对匹配文本的处理,因为每个组的内容都可以单独提取出来。findall()方
法搜索整个文本并找出所有的匹配项然后将它们以列表的形式返回。如果想以迭代的方式找出匹配项,可以使用finditer()
方法。
例如:
import re #加入捕获组 datepat=re.compile(r'(\d+)+/(\d+)+/(\d+)') m=datepat.match('11/27/2018') print(m.group(0)) print(m.group(1)) print(m.group(2)) print(m.group(3)) print(m.groups()) month,day,year=m.groups() print(month) print(day) print(year) print('*'*20) text='今天是 11/27/2018,昨天是11/26/2018' for month,day,year in datepat.findall(text): print('{}-{}-{}'.format(year,month,day)) print('*'*20) for m in datepat.finditer(text): print(m.groups())
结果:
11/27/2018
11
27
2018
('11', '27', '2018')
11
27
2018
********************
2018-11-27
2018-11-26
********************
('11', '27', '2018')
('11', '26', '2018')
3、分析
本节主要介绍了re模块对文本匹配和搜索的基本功能,首先用re.compile()
对模式进行编译,然后使用想match()、findall()、finditer()
这样的方法做匹配和搜索。
当指定模式时我们通常会使用原始字符串,例如:
r'(\d+)/(\d+)/(\d+)'
这样的字符串不会对反斜字符转义,这在正则表达式中非常有用。否则,我们需要用双反斜杠线来标识一个单独的'',例如:
请注意match()方法只会检查字符的开头,有可能出现的匹配的结果并不是你想要的,例如:
import re #加入捕获组 datepat=re.compile(r'(\d+)+/(\d+)+/(\d+)') m=datepat.match('11/27/2018xxxx') print(m)
结果:
<re.Match object; span=(0, 10), match='11/27/2018'>
如果想要精确匹配,可以加一个结束标记:$
import re #加入捕获组 datepat=re.compile(r'(\d+)+/(\d+)+/(\d+)$') m1=datepat.match('11/27/2018xxxx') m2=datepat.match('11/27/2018') print(m1) print(m2)
结果:
None
<re.Match object; span=(0, 10), match='11/27/2018'>
如果只是执行简单的文本匹配和搜索操作,可以省略编译步骤。
如果打算执行很多匹配或查找操作的话,通常需要先将模式编译然后重复使用。模块级的函数会对最近编译过的模式做缓存处理,并且比较省步骤。
总结
以上所述是小编给大家介绍的正则表达式之文本模式的匹配和查找,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!
您可能感兴趣的文章:
- 第一章:文本-re:正则表达式-查找文本中的模式
- 正则表达式如何实现不替换查找的匹配文本?
- Java基于正则表达式实现查找匹配的文本功能【经典实例】
- 通过正则表达式查找文本 并检索出匹配正则的字符串内容
- 【Python】利用正则表达式查找文本模式
- shell之文本查找(文本匹配)、正则表达式
- 正则表达式,模式匹配(查找替换)
- 文本匹配模式串的通配符形式转正则表达式的方法
- 第11章 使用正则表达式的模式匹配(一)
- Java - 正则表达式的运用(Pattern模式和Matcher匹配)—— 匹配中文,英文字母和数字及_长度详解——收集资源blog
- 正则表达式三种匹配模式:贪婪模式,勉强模式,占有模式的区别
- 常用正则表达式模式匹配学习笔记
- UVA 11019 Matrix Matcher 矩阵匹配器 AC自动机 二维文本串查找二维模式串
- JAVA正则表达式匹配,替换,查找,切割
- JS中正则表达式全局匹配模式 /g用法详解
- java 正则 块转义,忽略大小写,匹配换行模式,匹配先前匹配的文本(解释正则运行机制)
- 在vs2013中使用正则表达式查找和替换文本内容
- JAVA中正则表达式匹配,替换,查找,切割的方法
- scala模式匹配和正则表达式
- 随笔:linux中正则表达式BRE模式下的特殊匹配字符