一个爬虫例子,抓取糗百笑话。
2015-06-25 17:26
489 查看
# -*- coding: utf-8 -*- import re import urllib2 def getimage(pagenum): url = 'http://m.qiushibaike.com/text/page/%s?s=4784059' % pagenum req = urllib2.Request(url,headers={'User-Agent':'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'}) res = urllib2.urlopen(req) c = res.read().decode('utf-8') p = re.compile(r'<div class="content">(.*?)</div>',re.S) l = re.findall(p,c) return l def getinfo(): f = open('E:\\qiubai.txt','w') num = 35 slen = 0 for page in range(1,num+1): list = getimage(page) slen += len(list) for line in list: f.write(line.encode('utf-8')) f.close() print 'total download [%d] ' % slen getinfo()
相关文章推荐
- 重装软件时候,提示软件已经安装
- [XJOI NOI2015模拟题13] C 白黑树 【线段树合并】
- 让代码中的属性可以在storyboard的右边栏中进行设置
- JavaScript学习笔记(前言)
- 通过例子学习Rust之 1 Hello World
- centos7中yum安装vnc
- 12864点阵型液晶显示屏的基本原理与使用方法(很详细)
- leetcode-24Swap Nodes in Pairs
- WPF 美化Button按钮
- 数据传输利器--Event Bus模式
- 计算机网络总结(二)
- Codevs1014 装箱问题
- Undefined symbols for architecture arm64解决方案
- 【学习】组合数的递推公式
- LVS负载均衡-使用
- Andorid M来了!
- 国内从事计算机视觉(CV)领域的公司
- JSON字符串转JSON对象,表单固定表头
- 黑马程序员——java基础(一)
- 日语学习之沪江N3基础 20150625 -6