Python微博移动端爬虫实例(附代码)
2017-12-27 00:00
549 查看
專 欄
❈作者:麦艳涛,挖掘机小王子,数据分析爱好者。
❈
本文简要讲述用Python爬取微博移动端数据的方法。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉。至于为什么不爬PC端,原因是移动端较简单,很适合爬虫新手入门。有时间再写PC端吧!环境介绍Python3/Windows-10-64位/微博移动端网页分析以获取评论信息为例(你可以以自己的喜好获得其他数据)。如下图:
在这里就会涉及到一个动态加载的概念,也就是我们只有向下滑动鼠标滚轮才会加载出更多的评论数据。这也是网页经常使用的方式。接下来就应该找到评论信息的真实网址,找到真实网址的方法就是打开浏览器的开发者工具,火狐/谷歌是F12键。打开如下:
打开以后点击网络,网络用来记录浏览器和服务器交换的信息。接下来将鼠标滚轮缓慢向下滚动,在这个过程中就会弹出类似于上图的信息,也就是评论信息加载出来了。找到评论信息,应该会在第一条。如下图:
真实网址:https://m.weibo.cn/api/comments/show?id=4160547165300149&page=3将网址在火狐里面打开如下图:
上面的网址其实pages=3就代表第三页,所以只需模拟网址即可,pages=4,5,6。。。。另外由于是Json文件,所以提取数据非常方便,只需用切片操作即可。长按扫描下方二维码,关注“编程狗”,回复数字“1227”,获取本文源代码
编 程 狗编程大牛技术分享平台
Python 中 文 社 区
Python中文开发者的精神部落
合作、投稿请联系微信:
pythonpost
— 人生苦短,我用Python —
❈作者:麦艳涛,挖掘机小王子,数据分析爱好者。
❈
本文简要讲述用Python爬取微博移动端数据的方法。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉。至于为什么不爬PC端,原因是移动端较简单,很适合爬虫新手入门。有时间再写PC端吧!环境介绍Python3/Windows-10-64位/微博移动端网页分析以获取评论信息为例(你可以以自己的喜好获得其他数据)。如下图:
在这里就会涉及到一个动态加载的概念,也就是我们只有向下滑动鼠标滚轮才会加载出更多的评论数据。这也是网页经常使用的方式。接下来就应该找到评论信息的真实网址,找到真实网址的方法就是打开浏览器的开发者工具,火狐/谷歌是F12键。打开如下:
打开以后点击网络,网络用来记录浏览器和服务器交换的信息。接下来将鼠标滚轮缓慢向下滚动,在这个过程中就会弹出类似于上图的信息,也就是评论信息加载出来了。找到评论信息,应该会在第一条。如下图:
真实网址:https://m.weibo.cn/api/comments/show?id=4160547165300149&page=3将网址在火狐里面打开如下图:
上面的网址其实pages=3就代表第三页,所以只需模拟网址即可,pages=4,5,6。。。。另外由于是Json文件,所以提取数据非常方便,只需用切片操作即可。长按扫描下方二维码,关注“编程狗”,回复数字“1227”,获取本文源代码
编 程 狗编程大牛技术分享平台
Python 中 文 社 区
Python中文开发者的精神部落
合作、投稿请联系微信:
pythonpost
— 人生苦短,我用Python —
相关文章推荐
- python爬虫之模拟登陆csdn的实例代码
- python 爬虫 批量获取代理ip的实例代码
- python开发爬虫实例代码
- python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例
- Python爬虫框架Scrapy实例代码
- Python实现爬虫从网络上下载文档的实例代码
- Python 爬虫实例(10)—— 四行代码实现刷 博客园 阅读数量
- Python3多线程爬虫实例讲解代码
- Python使用requests及BeautifulSoup构建爬虫实例代码
- python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息,抓取政府网新闻内容
- python_慕课\Python开发简单爬虫\5-3 Python爬虫urlib2实例代码.py
- Python 爬虫多线程详解及实例代码
- Python 爬虫多线程详解及实例代码
- Python爬虫爬取一个网页上的图片地址实例代码
- Python爬虫实现爬取京东手机页面的图片(实例代码)
- python面向对象多线程爬虫爬取搜狐页面的实例代码
- 利用Python爬取微博数据生成词云图片实例代码
- Python 爬虫实例(爬百度百科词条)
- 线程和进程的区别及Python代码实例
- python爬虫实例(urllib&BeautifulSoup)