您的位置:首页 > 编程语言 > Python开发

爬取糗事百科

2018-01-15 19:17 127 查看
任务:爬取糗事百科发布者和发布内容

实现:

糗事百科的段子还是很不错的,下面上代码啦

# -*- coding:utf-8 -*-
import urllib2
import re
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
 
f = open("c.txt", "ab+")
page = 1
for page in range(1, 5):
url = 'https://www.qiushibaike.com/hot/page/%s/' % page  #糗事百科的url
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)
content = response.read().decode('utf-8')
pattern1 = re.compile(r'<h2>(.*?)</h2>.+?<span>(.*?)</span>',re.S) #正则匹配源代码
items = re.findall(pattern1,content)
for item in items:
items=re.sub(r'\s','',item[1])
f.write("发布者:"+item[0]+"发布内容:"+items+'\n')
f.close()

结果:
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python 糗事百科 爬虫