[爬虫系列(三)]用多线程爬取百度贴吧默认表情
2016-02-21 21:00
295 查看
一直认为百度贴吧默认表情比较有趣,于是学了爬虫后,我便想把这些表情爬下来.
所以,我们只需要用数字替换掉%d就行了.并且因为表情只有50张,我们只需要1到50就行了.
具体代码见这里:用多线程爬取百度贴吧默认表情
1.URL分析
分析这些url,发现它们的模式都是这样的:http://static.tieba.baidu.com/tb/editor/images/client/image_emoticon%d.png
所以,我们只需要用数字替换掉%d就行了.并且因为表情只有50张,我们只需要1到50就行了.
2.爬取网页
有了url,那么爬取网页就方便了.因为这里的url直接指向图片地址,不包含其他内容,所以我直接用urllib.urlretrieve()函数下载图片.3.使用多线程爬取
关于多线程具体原理我还不是很懂,这里我也是参考他人代码.首先,将要爬取的url收集到一个list中,接着开启线程池,调用map()函数,即对list中的每一个url进行下载.具体代码见这里:用多线程爬取百度贴吧默认表情
相关文章推荐
- Python3写爬虫(四)多线程实现数据爬取
- Scrapy的架构介绍
- 爬虫笔记
- C#实现多线程的同步方法实例分析
- 浅谈chuck-lua中的多线程
- C#简单多线程同步和优先权用法实例
- C#多线程学习之(四)使用线程池进行多线程的自动管理
- C#多线程编程中的锁系统(三)
- C#多线程学习之(六)互斥对象用法实例
- 基于一个应用程序多线程误用的分析详解
- C#多线程学习之(三)生产者和消费者用法分析
- C#多线程学习之(一)多线程的相关概念分析
- C#多线程之Thread中Thread.IsAlive属性用法分析
- 分享我在工作中遇到的多线程下导致RCW无法释放的问题
- C#多线程编程之使用ReaderWriterLock类实现多用户读与单用户写同步的方法
- C#控制台下测试多线程的方法
- Nodejs爬虫进阶教程之异步并发控制
- 21天学习android开发教程之SurfaceView与多线程的混搭
- Ruby 多线程的潜力和弱点分析