您的位置:首页 > 其它

[爬虫系列(三)]用多线程爬取百度贴吧默认表情

2016-02-21 21:00 295 查看
一直认为百度贴吧默认表情比较有趣,于是学了爬虫后,我便想把这些表情爬下来.

1.URL分析

分析这些url,发现它们的模式都是这样的:

http://static.tieba.baidu.com/tb/editor/images/client/image_emoticon%d.png


所以,我们只需要用数字替换掉%d就行了.并且因为表情只有50张,我们只需要1到50就行了.

2.爬取网页

有了url,那么爬取网页就方便了.因为这里的url直接指向图片地址,不包含其他内容,所以我直接用urllib.urlretrieve()函数下载图片.

3.使用多线程爬取

关于多线程具体原理我还不是很懂,这里我也是参考他人代码.首先,将要爬取的url收集到一个list中,接着开启线程池,调用map()函数,即对list中的每一个url进行下载.

具体代码见这里:用多线程爬取百度贴吧默认表情
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  多线程 爬虫