Python爬虫学习纪要(五):正则表达式2
2017-08-02 20:31
393 查看
三、Match:
1).string:匹配时使用的文本
2).re:匹配时使用的Pattren对象
3).pos:文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同
4).endpos:本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同
5).lastindex:最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组,将为None
6).lastgroup: 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组,将为None
方法:
1).group([group1, …]);获得一个或多个分组截获的字符串;指定多个参数时将以元组形式返回
2).groups([default]):以元组形式返回全部分组截获的字符串
3).groupdict([default]):返回以有别名的组的别名为键、以该组截获的子串为值的字典,没有别名的组不包含在内
4).start([group]):返回指定的组截获的子串在string中的起始索引(子串第一个字符的索引)
5).end([group]):返回指定的组截获的子串在string中的结束索引(子串最后一个字符的索引+1)
6).span([group]):返回(start(group), end(group))。
7).expand(template):将匹配到的分组代入template中然后返回。
四、.Pattren:
Pattern对象是一个编译好的正则表达式,通过Pattern提供的一系列方法可以对文本进行匹配查找。Pattern不能直接实例化,必须使用re.compile()进行构造。
1).pattern: 编译时用的表达式字符串。
2).flags: 编译时用的匹配模式。数字形式。
3).groups: 表达式中分组的数量。
4).groupindex: 以表达式中有别名的组的别名为键、以该组对应的编号为值的字典,没有别名的组不包含在内。
方法:
1).match(string[, pos[, endpos]]) | re.match(pattern, string[, flags]):
这个方法将从string的pos下标处起尝试匹配pattern;如果pattern结束时仍可匹配,则返回一个Match对象;如果匹配过程中pattern无法匹配,或者匹配未结束就已到达endpos,则返回None
2).search(string[, pos[, endpos]]) | re.search(pattern, string[, flags]):
这个方法用于查找字符串中可以匹配成功的子串。从string的pos下标处起尝试匹配pattern,如果pattern结束时仍可匹配,则返回一个Match对象;若无法匹配,则将pos加1后重新尝试匹配;直到pos=endpos时仍无法匹配则返回None
1).string:匹配时使用的文本
2).re:匹配时使用的Pattren对象
3).pos:文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同
4).endpos:本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同
5).lastindex:最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组,将为None
6).lastgroup: 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组,将为None
方法:
1).group([group1, …]);获得一个或多个分组截获的字符串;指定多个参数时将以元组形式返回
2).groups([default]):以元组形式返回全部分组截获的字符串
3).groupdict([default]):返回以有别名的组的别名为键、以该组截获的子串为值的字典,没有别名的组不包含在内
4).start([group]):返回指定的组截获的子串在string中的起始索引(子串第一个字符的索引)
5).end([group]):返回指定的组截获的子串在string中的结束索引(子串最后一个字符的索引+1)
6).span([group]):返回(start(group), end(group))。
7).expand(template):将匹配到的分组代入template中然后返回。
四、.Pattren:
Pattern对象是一个编译好的正则表达式,通过Pattern提供的一系列方法可以对文本进行匹配查找。Pattern不能直接实例化,必须使用re.compile()进行构造。
1).pattern: 编译时用的表达式字符串。
2).flags: 编译时用的匹配模式。数字形式。
3).groups: 表达式中分组的数量。
4).groupindex: 以表达式中有别名的组的别名为键、以该组对应的编号为值的字典,没有别名的组不包含在内。
方法:
1).match(string[, pos[, endpos]]) | re.match(pattern, string[, flags]):
这个方法将从string的pos下标处起尝试匹配pattern;如果pattern结束时仍可匹配,则返回一个Match对象;如果匹配过程中pattern无法匹配,或者匹配未结束就已到达endpos,则返回None
2).search(string[, pos[, endpos]]) | re.search(pattern, string[, flags]):
这个方法用于查找字符串中可以匹配成功的子串。从string的pos下标处起尝试匹配pattern,如果pattern结束时仍可匹配,则返回一个Match对象;若无法匹配,则将pos加1后重新尝试匹配;直到pos=endpos时仍无法匹配则返回None
相关文章推荐
- Python爬虫学习纪要(三):正则表达式
- Python爬虫学习纪要(四):正则表达式1
- python爬虫学习(1)--关于正则表达式输入和提取中文
- python爬虫学习之re正则表达式
- Python 爬虫学习笔记之正则表达式
- python爬虫学习---正则表达式的使用
- 在学习python网络爬虫时用到的正则表达式
- Python基础学习——正则表达式与第一个爬虫(requests)
- [置顶] Python爬虫学习(四)正则表达式
- Python 爬虫学习笔记之正则表达式
- 【python爬虫学习2.正则表达式】
- python爬虫学习三:python正则表达式
- Python爬虫包 BeautifulSoup 学习(九) 正则表达式与Lambda表达式
- (转)Python爬虫学习笔记(2):Python正则表达式指南
- [Python] 网络爬虫和正则表达式学习总结
- 【python爬虫专题】解析方法 <3> 正则表达式学习
- python爬虫之正则表达式学习笔记一
- python——爬虫学习——正则表达式与Re库-(4)
- Python学习笔记 第二部分 - 正则表达式 与 爬虫小实例(抓取豆瓣电影中评分大于等于8分的影片)
- Python爬虫学习---5分钟掌握正则表达式