您的位置：首页 > 编程语言 > Python开发

python爬虫学习---正则表达式的使用

2018-03-06 13:19 761 查看

python爬虫学习---正则表达式的使用

#正则表达式实现字符串的提取处理等等操作
#正则不是python独有的，只是python使用re模块进行了支持

#常见的匹配模式参加开发文档
#re.match，从头开始匹配，中间匹配不到
import re
str='wqgeygewgfywgqfhdsakdgsafgdsah'
result=re.match("wq",str)
print(result)

#.*可以匹配所有的字符
result=re.match("wq.*h",str)
print(result)

#使用小括号，可以仅仅匹配小括号里的内容
result=re.match("wq(.*)f",str)
print(result)
print(result.group(1))#group指的是第几个括号里的字符串

#贪婪模式.*尽可能多的匹配
#懒惰模式.*?尽可能短的匹配
result=re.match("wq(.*?)f",str)
print(result)
print(result.group(1))#贪婪模式比较常用，因为比较精准

#匹配模式,使之可以匹配到换行符
str='wqgeygewgfywgqfhds\
akdgsafgdsah'
result=re.match("wq.*h",str,re.S)
print(result)

#转义遇到像$这样的有意义的字符，可以在特殊字符前加\进行转义，即可以匹配
#re.search扫描整个字符串，返回第一个匹配成功的结果
str='wqgeygewgfywgqfhdsakdgsafgdsah'
result=re.match("wg",str)
result_search=re.search("wg",str)
print(result)
print(result_search)

#re.findall以列表的形式返回全部的匹配字符串
#re.sub(规则，替换内容，替换的字符串)替换字符串中每一个匹配的子串返回替换后的字符串
#re.compile将正则表达式编译成正则对象
str=""
pattern=re.compile("",re.S)
result=re.match(pattern,str)
#用于代码复用这其中有不合适或者不正确的地方欢迎指正，我的QQ号码：2867221444（乔金明），谢谢，也可以相互交流下，备注信息随意，只要能看得出是开发者或者学习者即可。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航