您的位置:首页 > 移动开发 > 微信开发

快速搭建基于《搜狗微信》的公众号爬虫---搜狗微信公众号爬虫教程

2017-02-16 16:49 302 查看
这个教程是基于我开源的一份python源码,各位看官请先下载源码。

源码下载地址:https://github.com/jaryee/wechat_sogou_crawl

环境配置咱这里就不讲了,网上一大堆教程,请先配置好python2.7+mysql

注意,python版本为2.7,需要安装如下模块:

requests 、pymysql、lxml、Pillow、werkzeug

安装就是在CMD控制台里直接:pip install pymysql  回车

安装时如果某个模块安装失败,可以去下面这个网址里下载别人编译好的whl模块文件,下载自己对应的版本
http://www.lfd.uci.edu/~gohlke/pythonlibs
下载好后直接在CMD控制台里:pip install xxx.whl 回车就可以了

好,现在来创建对应的数据库,先创建一个数据库,名字随意,比如:jubang,格式为 utf8mb4,创建好后在该数据库导入刚才下载的源码包里的:jubang.sql文件,

这样,数据库表就创建完成了,一共有4个表,分别是:

mp_info:所有咱们需要抓取的公众号信息都保存在这里

wenzhang_info:公众号发布的文章信息都保存在这里

wenzhang_statistics:每次抓取文章阅读及点攒时,都在会这个表里保存一份增量数据,可以使用该表中的数据生成一篇文章的阅读变化趋势图

add_mp_list:这个表是用来增加指定的公众号的,咱想要抓哪个公众号,就打开这个表,把公众号名称或者公众号的微信号加入这个表,然后执行一下源码中的auto_add_mp.py就可以啦

下面打开源码包中的config.py文件,将其中数据库的设置,修改为你的数据库信息,用户名密码,ip之类的,到这里我们就成功部署好了搜狗微信爬虫啦,现在来看看他的能力吧!

如何使用爬虫呢?

一、更新数据库最新文章

执行updatemp.py,就会去查看咱指定的公众号是否有新文章发布了,如果有,就把新发布的文章入库,这里咱做了 排重,不会重复抓相同文章

二、更新文章阅读数据

执行updatewenzhang.py,就会去更新文章表中的最近24小时之内的文章阅读数据,如果修改为指定时间,比如12小时或36小时,可以修改updatewenzhang.py文件,大家自己看一下文件中有注释解释了如何修改

三、添加指定的公众号

打开数据库表add_mp_list,把想要抓取的公众号名称或者公众号的微信号加入这个表,可以一次增加多条,然后执行一下源码中的auto_add_mp.py就可以啦

注意:搜狗微信网站如果访问频繁了会出现验证码,导致我们不能正常爬取,不要怕,咱的代码里已经加了验证码自动识别模块:若快识别,请在下面的链接中注册若快用户,然后把注册的用户和密码填写到源码中的config.py文件中就可以啦,若快识别大约是两个验证码1分钱,大家根据自己的需要充值就可以了
http://www.ruokuai.com
好啦,到这里基于搜狗微信的公众号爬虫就全部搞定啦,是不是非常简单,让我们快乐的爬起来吧,哈哈~~

后面还会有基于微信接口的教程,搜狗微信无法抓取公众号全部历史文章及阅读数据,而基于微信接口就可以实现这个伟大的目标了,大家一起期待吧!

您的支持,就是我开源的动力!!!

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息