您的位置:首页 > 理论基础 > 计算机网络

爬取http://www.hack-cn.com

2016-10-18 10:30 239 查看
#coding=utf-8
import urllib2
import re

def getHtml(url):
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
req = urllib2.Request(url,headers=headers)
resp=urllib2.urlopen(req)
html = resp.read()
pattern=re.compile('style="word-break:break-all">(.*?)</td>',re.S)
items=re.findall(pattern,html)
for item in items:
print item
return html
for i in range(1,101):
html = getHtml("http://www.hack-cn.com/?page=%s" %i)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  爬虫