您的位置：首页 > 其它

[爬虫系列(三)]用多线程爬取百度贴吧默认表情

2016-02-21 21:00 295 查看

一直认为百度贴吧默认表情比较有趣,于是学了爬虫后,我便想把这些表情爬下来.

分析这些url,发现它们的模式都是这样的:

http://static.tieba.baidu.com/tb/editor/images/client/image_emoticon%d.png

所以,我们只需要用数字替换掉%d就行了.并且因为表情只有50张,我们只需要1到50就行了.

有了url,那么爬取网页就方便了.因为这里的url直接指向图片地址,不包含其他内容,所以我直接用urllib.urlretrieve()函数下载图片.

关于多线程具体原理我还不是很懂,这里我也是参考他人代码.首先,将要爬取的url收集到一个list中,接着开启线程池,调用map()函数,即对list中的每一个url进行下载.

具体代码见这里:用多线程爬取百度贴吧默认表情

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 多线程爬虫

相关文章推荐

新的分享

章节导航