微信公众号文章内容阅读数采集抓取
2017-01-12 14:56
696 查看
微信小程序公众号订阅号,历史热门文章内容,留言阅读数量点赞数量等数据都可以采集抓取,怎样做?方法会很难吗?楚江数据 p02721606
给你几个微信公众号爬虫,微信数据采集爬取so easy!
1.基于搜狗微信搜索的微信公众号爬虫
a.
项目地址:https://github.com/Chyroc/WechatSogou
b.
基于搜狗微信搜索的微信公众号爬虫接口开发,可获取文章的临时链接,获取微信公众号的最近10篇文章
2.微信公众号爬虫 (基于中间人攻击的爬虫核心实现,支持批量爬取公众号所有历史文章)
a.
项目地址:https://github.com/sundy-li/wechat_spider
b.
通过Man-In-Middle
代理方式获取微信服务端返回,自动模拟请求自动分页,抓取对应点击的所有历史文章
3.使用Python实现的微信公众号爬虫
a.
项目地址:https://github.com/bowenpay/wechat-spider
4.爬取指定微信公众号的全部历史文章,使用 JS
实现
a.
项目地址:https://github.com/iamyy/wechat-spider
b.
目前需要手动获取 cookie
等验证信息
5.基于搜狗微信入口的微信爬虫程序,使用Python实现。
a.
项目地址:https://github.com/CoolWell/wechat_spider
b.
由基于phantomjs的python实现。 使用了收费的动态代理。 采集包括文章文本、阅读数、点赞
评 论以及评论赞数。 效率:500公众号/小时。 根据采集的公众号划分为多线程,可以实现并行采集。
6.Java
基于selenium抓取搜狗微信公众号文章
a.
项目地址:https://github.com/badaozhai/wechat_webdriver_spider
访问接口需要的参数:
uin :
用户对于公众号的唯一ID,
本来是一个数字,
传的是base64之后的结果;
key :
与公众号和uin绑定,
过期时间大概是半小时;
pass_ticket:
另外一个验证码,
与uin进行绑定;
req_id:
在文章里HTML里,
每次请求会不一样,
用来构成获取阅读点赞接口的RequestBody,
一次有效;
获取阅读点赞接口有频率限制,
测试的结果是一个微信号5分钟可以查看30篇文章的阅读点赞
【楚江数据】有更多互联网网站app数据采集,爬虫开发技巧及思路,数据、图片批量采集服务!欢迎交流,微信
p02721606,或淘宝搜索店铺“楚江数据”。
参考文章:
http://stackbox.cn/2016-07-21-weixin-spider-notes/
https://zhuanlan.zhihu.com/c_65943221
给你几个微信公众号爬虫,微信数据采集爬取so easy!
1.基于搜狗微信搜索的微信公众号爬虫
a.
项目地址:https://github.com/Chyroc/WechatSogou
b.
基于搜狗微信搜索的微信公众号爬虫接口开发,可获取文章的临时链接,获取微信公众号的最近10篇文章
2.微信公众号爬虫 (基于中间人攻击的爬虫核心实现,支持批量爬取公众号所有历史文章)
a.
项目地址:https://github.com/sundy-li/wechat_spider
b.
通过Man-In-Middle
代理方式获取微信服务端返回,自动模拟请求自动分页,抓取对应点击的所有历史文章
3.使用Python实现的微信公众号爬虫
a.
项目地址:https://github.com/bowenpay/wechat-spider
4.爬取指定微信公众号的全部历史文章,使用 JS
实现
a.
项目地址:https://github.com/iamyy/wechat-spider
b.
目前需要手动获取 cookie
等验证信息
5.基于搜狗微信入口的微信爬虫程序,使用Python实现。
a.
项目地址:https://github.com/CoolWell/wechat_spider
b.
由基于phantomjs的python实现。 使用了收费的动态代理。 采集包括文章文本、阅读数、点赞
评 论以及评论赞数。 效率:500公众号/小时。 根据采集的公众号划分为多线程,可以实现并行采集。
6.Java
基于selenium抓取搜狗微信公众号文章
a.
项目地址:https://github.com/badaozhai/wechat_webdriver_spider
访问接口需要的参数:
uin :
用户对于公众号的唯一ID,
本来是一个数字,
传的是base64之后的结果;
key :
与公众号和uin绑定,
过期时间大概是半小时;
pass_ticket:
另外一个验证码,
与uin进行绑定;
req_id:
在文章里HTML里,
每次请求会不一样,
用来构成获取阅读点赞接口的RequestBody,
一次有效;
获取阅读点赞接口有频率限制,
测试的结果是一个微信号5分钟可以查看30篇文章的阅读点赞
【楚江数据】有更多互联网网站app数据采集,爬虫开发技巧及思路,数据、图片批量采集服务!欢迎交流,微信
p02721606,或淘宝搜索店铺“楚江数据”。
参考文章:
http://stackbox.cn/2016-07-21-weixin-spider-notes/
https://zhuanlan.zhihu.com/c_65943221
相关文章推荐
- [信息采集专家]如何抓取文章内容的同时将图片也下载到本地
- 微信公众号文章采集 爬取微信文章 采集公众号的阅读数和点赞数?
- 爬虫抓取微信公众号文章及阅读点赞总结
- 微信公众号文章采集 爬取微信文章 采集公众号的阅读数和点赞数?
- 微信公众号文章采集 爬取微信文章 采集公众号的阅读数和点赞数?
- 微信公众号文章-阅读点赞数-评论采集方案
- 微信公众号文章采集 爬取微信文章 采集公众号的阅读数和点赞数?
- 微信公众号文章采集 爬取微信文章 采集公众号的阅读数和点赞数?
- 微信公众号文章采集 爬取微信文章 采集公众号的阅读数和点赞数?
- 使用fiddler自动化抓取微信公众号文章的点赞与阅读数
- 微信公众号文章内容采集
- 微信公众号文章采集的入口--历史消息页详解
- 一个带采集远程文章内容,保存图片,生成文件等完整的采集功能
- 文章采集与网址抓取-正则表达式
- 搜狗微信公众号文章抓取
- 微信公众号文章采集接口程序
- 抓取微信公众号文章,亲测有效
- 微信公众号文章采集的入口--历史消息页详解
- 如何采集微信公众号文章数据?
- 如何采集微信公众号文章