您的位置:首页 > 移动开发 > 微信开发

【学习】06 爬虫使用代理地址爬取搜狗微信文章

2017-12-26 16:01 120 查看
参考:静觅丨崔庆才的个人博客

 

项目地址:copywang/spiders_collection

 

实现功能

根据登陆后的cookie制作header,请求搜索微信文章
url需要使用urlencode拼接
使用代理避免IP被封
使用pyquery解析得到需要的字段信息
爬取文章详情页并存储到MongoDB

步骤

制作cookie,拼接URL
获取每一页的html代码
从每一页的html代码解析得到具体文章的url
获取具体文章的url,解析得到需要的信息

收获

使用pyquery
使用代理IP
异常处理
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐