您的位置：首页 > 移动开发 > 微信开发

快速搭建基于《搜狗微信》的公众号爬虫---搜狗微信公众号爬虫教程

2017-02-16 16:49 302 查看

这个教程是基于我开源的一份python源码，各位看官请先下载源码。

源码下载地址：https://github.com/jaryee/wechat_sogou_crawl

环境配置咱这里就不讲了，网上一大堆教程，请先配置好python2.7+mysql

注意，python版本为2.7，需要安装如下模块：

requests 、pymysql、lxml、Pillow、werkzeug

安装就是在CMD控制台里直接：pip install pymysql 回车

安装时如果某个模块安装失败，可以去下面这个网址里下载别人编译好的whl模块文件，下载自己对应的版本
http://www.lfd.uci.edu/~gohlke/pythonlibs
下载好后直接在CMD控制台里：pip install xxx.whl 回车就可以了

好，现在来创建对应的数据库，先创建一个数据库，名字随意，比如：jubang，格式为 utf8mb4,创建好后在该数据库导入刚才下载的源码包里的：jubang.sql文件，

这样，数据库表就创建完成了，一共有4个表，分别是：

mp_info：所有咱们需要抓取的公众号信息都保存在这里

wenzhang_info：公众号发布的文章信息都保存在这里

wenzhang_statistics：每次抓取文章阅读及点攒时，都在会这个表里保存一份增量数据，可以使用该表中的数据生成一篇文章的阅读变化趋势图

add_mp_list：这个表是用来增加指定的公众号的，咱想要抓哪个公众号，就打开这个表，把公众号名称或者公众号的微信号加入这个表，然后执行一下源码中的auto_add_mp.py就可以啦

下面打开源码包中的config.py文件，将其中数据库的设置，修改为你的数据库信息，用户名密码，ip之类的，到这里我们就成功部署好了搜狗微信爬虫啦，现在来看看他的能力吧！

如何使用爬虫呢？

一、更新数据库最新文章

执行updatemp.py,就会去查看咱指定的公众号是否有新文章发布了，如果有，就把新发布的文章入库，这里咱做了排重，不会重复抓相同文章

二、更新文章阅读数据

执行updatewenzhang.py，就会去更新文章表中的最近24小时之内的文章阅读数据，如果修改为指定时间，比如12小时或36小时，可以修改updatewenzhang.py文件，大家自己看一下文件中有注释解释了如何修改

三、添加指定的公众号

打开数据库表add_mp_list，把想要抓取的公众号名称或者公众号的微信号加入这个表，可以一次增加多条，然后执行一下源码中的auto_add_mp.py就可以啦

注意：搜狗微信网站如果访问频繁了会出现验证码，导致我们不能正常爬取，不要怕，咱的代码里已经加了验证码自动识别模块：若快识别，请在下面的链接中注册若快用户，然后把注册的用户和密码填写到源码中的config.py文件中就可以啦，若快识别大约是两个验证码1分钱，大家根据自己的需要充值就可以了
http://www.ruokuai.com
好啦，到这里基于搜狗微信的公众号爬虫就全部搞定啦，是不是非常简单，让我们快乐的爬起来吧，哈哈~~

后面还会有基于微信接口的教程，搜狗微信无法抓取公众号全部历史文章及阅读数据，而基于微信接口就可以实现这个伟大的目标了，大家一起期待吧！

您的支持，就是我开源的动力！！！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 搜狗微信公众号爬虫教程 python 微信公众号爬虫微信文章爬虫

相关文章推荐

新的分享

章节导航