Python网络爬虫之正则表达式Re 库函数的用法及实例(学习笔记)——ZHJ
2019-03-30 21:24
351 查看
正则表达式
Re库(正则表达式)是用来简洁表达一组字符串的表达式,如:r’\d{3}-\d{8}|\d{4}-\d{7}’
正则表达式语法
操作符 | 说明 |
---|---|
. | 表示任何单个字符 |
[ ] | 字符集,对单个字符给出取值范围 |
[^ ] | 非字符集,对单个字符给出排除范围 |
* | 前一个字符0次或无限次扩展 |
+ | 前一个字符1次或无限次扩展 |
? | 前一个字符0次或1次扩展 |
l | 左右表达式任意一个 |
{m} | 扩展前一个字符m次 |
{m,n} | 扩展前一个字符m至n次 |
^ | 匹配字符串开头 |
$ | 匹配字符串结尾 |
( ) | 分组标记,内部只能使用l操作符 |
\d | 数字,等价与[0-9] |
\w | 单词字符,等价与[A-Za-z0-9_] |
Re库主要功能函数
正则表达式主要提供了六种正则表达式函数
函数 | 说明 |
---|---|
re.search( ) | 在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象 |
re.match( ) | 从一个字符串的开始位置起匹配正则表达式,返回match对象 |
re.findall( ) | 搜索字符串,以列表类型返回全部能匹配的字串 |
re.split( ) | 将一个字符串按照正则表达式匹配结果进行分割,返回列表类型 |
re.finditer( ) | 搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象 |
re.sub( ) | 在一个字符串中替换所有匹配正则表达式的字串,返回替换后的字符串 |
上述方法在使用时,需要在参数中增加正则表达式,带匹配的字符串。
另一种方式先通过complie()函数编译生成正则表达式对象,在用正则表达式对象调用上述函数
即
regex=re.compile()
regex.search()
regex.match()
…
各个函数的使用方法以及输出结果
import re match=re.match(r'[1-9]\d{5}','100081 BIT') if match: print(match.group(0)) #match 的用法 输出结果为 100081 ls=re.findall(r'[1-9]\d{5}','BIT100081 TSU100084') print(ls) #findall 的用法 输出结果为 ['100081', '100084'] Sp=re.split(r'[1-9]\d{5}','BIT100081 TSU100084') print(Sp) #split 的用法 输出结果为 ['BIT', ' TSU', ''] Sp1=re.split(r'[1-9]\d{5}','BIT100081 TSU100084',maxsplit=1) print(Sp1) #split 加限制的用法 输出结果为 ['BIT', ' TSU100084'] for m in re.finditer(r'[1-9]\d{5}','BIT100081 TSU100084'): if m: print(m.group(0)) # 通过finditer迭代的获取每次的匹配(是个瘸腿的findall)以下是输出结果 #100081 #100084 sub=re.sub(r'[1-9]\d{5}',':zipcode','BIT100081 TSU100084') print(sub) #sub 用给定的字符串替换所有匹配的字符串,以下是输出结果 #BIT:zipcode TSU:zipcode
看着输出结果就能明白各个函数做的事情,学习网络爬虫的第二次课,加油。
相关文章推荐
- Python爬虫之正则表达式基本用法实例分析
- Python爬虫实例(4)-用urllib、re和正则表达式爬取网页图片
- Python之网络爬虫---正则表达式、实例之爬取网站QQ号
- 网络爬虫笔记【6】 Python 中的正则表达式模块与应用
- 在学习python网络爬虫时用到的正则表达式
- Python中正则表达式的用法实例汇总
- Python爬虫实践(八):正则表达式re模块(2)
- 用python写网络爬虫-使用xpath代替正则表达式
- python re 正则表达式实例2
- python re模块的用法以及正则表达式
- python中正则表达式 re.findall 用法
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- [python爬虫] 正则表达式使用技巧及爬取个人博客实例
- 【Python】正则表达式 re.findall 用法
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- python爬虫学习笔记6:正则表达式及re库
- python正则表达式re模块用法详解
- python爬虫----正则表达式re模块的介绍和使用
- python爬虫之re正则表达式库
- python爬虫入门(2)re模块-正则表达式