python正则表达式和自制爬虫
2015-10-04 17:03
671 查看
python的正则表达式非常的重要。学的也很有意思、常用的正则表达式有. ,* ,?,.,.?,.?,()等等
.表示匹配任意字符,但是除了换行符
*匹配前一个字符0次或者无限次
?匹配前一个字符0次或者1次
.*?非贪心算法
将()中的匹配结果作为结果返回
在python中的正则表达式方法
findall:匹配所有符合规律的内容,返回包含结果的列表
search:匹配并提取第一个符合规律的内容,返回第一个符合规律的正则表达式对象,如果要匹配的内容只有一个,最好使用search,不用遍历整个文件,提高效率
Sub:替换符合规律的内容,返回替换后的值
测试小程序如下:
运行结果如下:
半自动的文本爬虫如下:
文本如下:
程序代码如下:
从执行的结果我们可以看到,已经将文本提取出来
进行爬虫下载资源,需要引入requests这个库
总的来说还是比较有意思的。加油
.表示匹配任意字符,但是除了换行符
*匹配前一个字符0次或者无限次
?匹配前一个字符0次或者1次
.*?非贪心算法
将()中的匹配结果作为结果返回
在python中的正则表达式方法
findall:匹配所有符合规律的内容,返回包含结果的列表
search:匹配并提取第一个符合规律的内容,返回第一个符合规律的正则表达式对象,如果要匹配的内容只有一个,最好使用search,不用遍历整个文件,提高效率
Sub:替换符合规律的内容,返回替换后的值
测试小程序如下:
运行结果如下:
半自动的文本爬虫如下:
文本如下:
程序代码如下:
从执行的结果我们可以看到,已经将文本提取出来
进行爬虫下载资源,需要引入requests这个库
总的来说还是比较有意思的。加油
相关文章推荐
- Python爬虫的一些总结
- Python 进程管理工具 Supervisor 使用教程
- Python中os模块的使用(附一个调试例子)
- 使用Python统计垃圾文件
- 关于wxPython中的TextCtrl响应失去焦点事件后不能再次编辑或出现不正常现象的解决办法
- Python加载csv文件的两种方式
- 萌妹子Python入门指北(一)
- [python]学习笔记6-python数字
- 《机器学习实战》笔记之八——预测数值型数据:回归
- Eclipse和PyDev搭建完美Python开发环境(Windows篇)
- 说说Python程序的执行过程
- 出现No module named numpy的解决办法
- Python-__builtin__与__builtins__的区别与关系
- 用python2.7,采集新浪博客
- 利用python脚本自动下载ICML会议接受的文章
- 验证码——python去除干扰线
- python之正则表达式的学习
- python基础课程_学习笔记15:标准库:有些收藏夹——fileinput
- 使用python来调试串口
- Python Mixin混入的使用方法