爬虫学习一 : 打开特定网页获取信息
2016-02-22 08:54
316 查看
#coding=utf-8 #=============================================================================== #import urllib2 #content=urllib2.urlopen('http://blog.csdn.net/yuri_4_vera').read() #以上运行结果 #urllib2.HTTPError: HTTP Error 403: Forbidden #================================================================================= import urllib2 import re #引入正则表达式 #模仿用浏览器访问 headers = { 'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6' } req = urllib2.Request( url = 'http://blog.csdn.net/shawncheer', headers = headers ) content = urllib2.urlopen(req).read() #解码,如果不解码,就会出现乱码现象。 content=content.decode("utf8") #正则表达式:(?<=<li>).+?(?=</li>) result = re.findall(r'(?<=<li>).+?(?=</li>)',content) for x in xrange(0,7): print result[x] pass
相关文章推荐
- php.ini 中的参数default_charset
- 安卓自定义ViewPager防止滑动冲突
- python实现识别相似图片小结
- scala------高阶函数
- JS实现上下左右对称的九九乘法表
- 详解Java面向对象编程中方法的使用
- Android消息推送
- spring(三)----大概是最简单的面向切面了
- OC多文件开发
- 强制Volley缓存图片到磁盘
- Microsoft .NET Framework 4.6.1官方地址
- ARM伪指令详解
- cf-公式专场
- 1101. Quick Sort (25)
- ps中的用法,切图抠图
- 电影入侵电竞圈,这是要为浮躁添把柴?
- 《Linux重要基础命令回顾复习》
- NetLogo编程的几个小技巧
- iOS开发-------初探运行时runtime
- ORACLE多表关联UPDATE 语句