您的位置：首页 > 编程语言 > Python开发

Python爬虫学习纪要（五）：正则表达式2

2017-08-02 20:31 393 查看

三、Match：

1）.string：匹配时使用的文本

2）.re：匹配时使用的Pattren对象

3）.pos：文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同

4）.endpos:本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同

5）.lastindex：最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组，将为None

6）.lastgroup：最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组，将为None

方法：

1）.group([group1, …]);获得一个或多个分组截获的字符串；指定多个参数时将以元组形式返回

2）.groups([default]):以元组形式返回全部分组截获的字符串

3）.groupdict([default]):返回以有别名的组的别名为键、以该组截获的子串为值的字典，没有别名的组不包含在内

4）.start([group]):返回指定的组截获的子串在string中的起始索引（子串第一个字符的索引）

5）.end([group]):返回指定的组截获的子串在string中的结束索引（子串最后一个字符的索引+1）

6）.span([group]):返回(start(group), end(group))。

7）.expand(template):将匹配到的分组代入template中然后返回。

四、.Pattren:

Pattern对象是一个编译好的正则表达式，通过Pattern提供的一系列方法可以对文本进行匹配查找。Pattern不能直接实例化，必须使用re.compile()进行构造。

1）.pattern: 编译时用的表达式字符串。

2）.flags: 编译时用的匹配模式。数字形式。

3）.groups: 表达式中分组的数量。

4）.groupindex: 以表达式中有别名的组的别名为键、以该组对应的编号为值的字典，没有别名的组不包含在内。

方法：

1）.match(string[, pos[, endpos]]) | re.match(pattern, string[, flags])：

这个方法将从string的pos下标处起尝试匹配pattern；如果pattern结束时仍可匹配，则返回一个Match对象；如果匹配过程中pattern无法匹配，或者匹配未结束就已到达endpos，则返回None

2）.search(string[, pos[, endpos]]) | re.search(pattern, string[, flags]):

这个方法用于查找字符串中可以匹配成功的子串。从string的pos下标处起尝试匹配pattern，如果pattern结束时仍可匹配，则返回一个Match对象；若无法匹配，则将pos加1后重新尝试匹配；直到pos=endpos时仍无法匹配则返回None

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航