您的位置:首页 > 其它

爬虫学习一 : 打开特定网页获取信息

2016-02-22 08:54 316 查看
#coding=utf-8

#===============================================================================
#import urllib2

#content=urllib2.urlopen('http://blog.csdn.net/yuri_4_vera').read()

#以上运行结果
#urllib2.HTTPError: HTTP Error 403: Forbidden

#=================================================================================

import urllib2
import re  #引入正则表达式

#模仿用浏览器访问
headers = {
'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
}
req = urllib2.Request(
url = 'http://blog.csdn.net/shawncheer',
headers = headers
)

content = urllib2.urlopen(req).read()

#解码,如果不解码,就会出现乱码现象。
content=content.decode("utf8")

#正则表达式:(?<=<li>).+?(?=</li>)
result = re.findall(r'(?<=<li>).+?(?=</li>)',content)

for x in xrange(0,7):
print result[x]
pass

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: