python爬虫学习---正则表达式的使用
2018-03-06 13:19
761 查看
python爬虫学习---正则表达式的使用
#正则表达式实现字符串的提取处理等等操作#正则不是python独有的,只是python使用re模块进行了支持
#常见的匹配模式参加开发文档
#re.match,从头开始匹配,中间匹配不到
import re
str='wqgeygewgfywgqfhdsakdgsafgdsah'
result=re.match("wq",str)
print(result)
#.*可以匹配所有的字符
result=re.match("wq.*h",str)
print(result)
#使用小括号,可以仅仅匹配小括号里的内容
result=re.match("wq(.*)f",str)
print(result)
print(result.group(1))#group指的是第几个括号里的字符串
#贪婪模式.*尽可能多的匹配
#懒惰模式.*?尽可能短的匹配
result=re.match("wq(.*?)f",str)
print(result)
print(result.group(1))#贪婪模式比较常用,因为比较精准
#匹配模式,使之可以匹配到换行符
str='wqgeygewgfywgqfhds\
akdgsafgdsah'
result=re.match("wq.*h",str,re.S)
print(result)
#转义遇到像$这样的有意义的字符,可以在特殊字符前加\进行转义,即可以匹配
#re.search扫描整个字符串,返回第一个匹配成功的结果
str='wqgeygewgfywgqfhdsakdgsafgdsah'
result=re.match("wg",str)
result_search=re.search("wg",str)
print(result)
print(result_search)
#re.findall以列表的形式返回全部的匹配字符串
#re.sub(规则,替换内容,替换的字符串)替换字符串中每一个匹配的子串返回替换后的字符串
#re.compile将正则表达式编译成正则对象
str=""
pattern=re.compile("",re.S)
result=re.match(pattern,str)
#用于代码复用 这其中有不合适或者不正确的地方欢迎指正,我的QQ号码:2867221444(乔金明),谢谢,也可以相互交流下,备注信息随意,只要能看得出是开发者或者学习者即可。
相关文章推荐
- python爬虫学习三:python正则表达式
- Python 爬虫学习笔记之正则表达式
- (转)Python爬虫学习笔记(2):Python正则表达式指南
- python爬虫之正则表达式学习笔记一
- python网络爬虫学习(三)正则表达式的使用之re.match方法
- python网络爬虫学习(四)正则表达式的使用之re的其他方法
- Python 爬虫学习笔记之正则表达式
- python 爬虫004-使用urllib2与正则表达式扒取糗事百科新鲜页首页帖子
- python爬虫主要就是五个模块:爬虫启动入口模块,URL管理器存放已经爬虫的URL和待爬虫URL列表,html下载器,html解析器,html输出器 同时可以掌握到urllib2的使用、bs4(BeautifulSoup)页面解析器、re正则表达式、urlparse、python基础知识回顾(set集合操作)等相关内容。
- 正则表达式使用学习(C++、Qt、Python)
- 在学习python网络爬虫时用到的正则表达式
- python使用正则表达式编写网页小爬虫
- Python3.7 爬虫(一)使用 Urllib2 与正则表达式抓取
- python3实现网络爬虫(6)--正则表达式和BeautifulSoup配合使用
- 【python爬虫学习2.正则表达式】
- Python爬虫实践(七):正则表达式(2) re模块的使用
- Python爬虫学习纪要(三):正则表达式
- [Python] 网络爬虫和正则表达式学习总结
- Python学习笔记 第二部分 - 正则表达式 与 爬虫小实例(抓取豆瓣电影中评分大于等于8分的影片)
- python 学习记录(2)—re 正则表达式模块的使用