您的位置：首页 > 其它

爬虫学习一：打开特定网页获取信息

2016-02-22 08:54 316 查看

#coding=utf-8

#===============================================================================
#import urllib2

#content=urllib2.urlopen('http://blog.csdn.net/yuri_4_vera').read()

#以上运行结果
#urllib2.HTTPError: HTTP Error 403: Forbidden

#=================================================================================

import urllib2
import re  #引入正则表达式

#模仿用浏览器访问
headers = {
'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
}
req = urllib2.Request(
url = 'http://blog.csdn.net/shawncheer',
headers = headers
)

content = urllib2.urlopen(req).read()

#解码，如果不解码，就会出现乱码现象。
content=content.decode("utf8")

#正则表达式：(?<=<li>).+?(?=</li>)
result = re.findall(r'(?<=<li>).+?(?=</li>)',content)

for x in xrange(0,7):
print result[x]
pass

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

爬虫学习一 ： 打开特定网页获取信息

爬虫学习一：打开特定网页获取信息