您的位置:首页 > 编程语言 > Python开发

Python爬虫学习纪要(五):正则表达式2

2017-08-02 20:31 393 查看
三、Match:

1).string:匹配时使用的文本

2).re:匹配时使用的Pattren对象

3).pos:文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同

4).endpos:本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同

5).lastindex:最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组,将为None

6).lastgroup: 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组,将为None

方法:

1).group([group1, …]);获得一个或多个分组截获的字符串;指定多个参数时将以元组形式返回

2).groups([default]):以元组形式返回全部分组截获的字符串

3).groupdict([default]):返回以有别名的组的别名为键、以该组截获的子串为值的字典,没有别名的组不包含在内

4).start([group]):返回指定的组截获的子串在string中的起始索引(子串第一个字符的索引)

5).end([group]):返回指定的组截获的子串在string中的结束索引(子串最后一个字符的索引+1)

6).span([group]):返回(start(group), end(group))。

7).expand(template):将匹配到的分组代入template中然后返回。

四、.Pattren:

Pattern对象是一个编译好的正则表达式,通过Pattern提供的一系列方法可以对文本进行匹配查找。Pattern不能直接实例化,必须使用re.compile()进行构造。

1).pattern: 编译时用的表达式字符串。

2).flags: 编译时用的匹配模式。数字形式。

3).groups: 表达式中分组的数量。

4).groupindex: 以表达式中有别名的组的别名为键、以该组对应的编号为值的字典,没有别名的组不包含在内。

方法:

1).match(string[, pos[, endpos]]) | re.match(pattern, string[, flags]):

这个方法将从string的pos下标处起尝试匹配pattern;如果pattern结束时仍可匹配,则返回一个Match对象;如果匹配过程中pattern无法匹配,或者匹配未结束就已到达endpos,则返回None

2).search(string[, pos[, endpos]]) | re.search(pattern, string[, flags]):

这个方法用于查找字符串中可以匹配成功的子串。从string的pos下标处起尝试匹配pattern,如果pattern结束时仍可匹配,则返回一个Match对象;若无法匹配,则将pos加1后重新尝试匹配;直到pos=endpos时仍无法匹配则返回None
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: