Python3爬取今日头条有关《人民的名义》文章
2017-05-07 13:18
302 查看
Python3爬取今日头条有关《人民的名义》文章
最近一直在看Python的基础语法知识,五一假期手痒痒想练练,正好《人民的名义》刚结束,于是决定扒一下头条上面的人名的名义文章,试试技术同时可以集中看一下大家的脑洞也是极好的。首先,我们先打开头条的网页版,在右上角搜索框输入关键词,通过chrome调试工具,我们定位到头条的search栏调用的的API为:
http://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E4%BA%BA%E6%B0%91%E7%9A%84%E5%90%8D%E4%B9%89&autoload=true&count=20&cur_tab=1
其返回的数据是标准的json,所有的相关文章链接在data中,key值为article_url,好准备工作完成,我们开始动手coding。
首先,我们构造头条必要的search条件:
query_data = { 'offset': offset, 'format': 'json', 'keyword': '人民的名义', 'autoload': 'true', 'count': 20, # 每次返回 20 篇文章 'cur_tab': 1 }
当然,我们除了search参数之外,还需要必要的header头信息,仔细查看之后我们可以看到,
我们只选取其中必要的信息,不放cookie;
然后是编码查询条件
其中_get_query_string方法将query_data编码;
拿到article_req之后解析获取当前搜索结果的所有文章链接,实现如下:
获取到文章链接之后,我们打开每一个url进行解析。
此处,我们简单地对article_content进行解析,取出文章标题、内容和图片。
解析完成之后,我们将内容保存到mongo中,方便后续的取数分析。
然后我们运行一下程序,
运行程序的时候我们发现,通过search来搜索最后得到的文章数量有限,只有几十篇文章,估计是头条的限制。
下一篇我们将介绍如何通过一篇文章和相关推荐进行链式爬取所有的关联推荐文章。
相关文章推荐
- 用Python+Selenium爬取今日头条关于江歌案的文章
- 今日头条、微信写出阅读量十万+的文章核心技巧解密!
- java爬取今日头条文章
- Python 爬虫实例(2)—— 爬取今日头条
- Python爬取今日头条搜索的照片。使用requests+正则表达式
- Python使用Selenium + PhantomJS抓取动态网页:今日头条
- [python爬虫小实战2]根据用户输入关键词爬取今日头条图集,并批量下载图片
- 服务器端开发(Python/C++)-今日头条-拉勾网-最专业的互联网招聘平台
- Python脚本下载今日头条视频(附加Android版本辅助下载器)
- Python脚本下载今日头条视频(附加Android版本辅助下载器)
- 爬今日头条文章
- 使用js抓取今日头条的文章
- [IMWeb训练营作业]基于vue仿照今日头条文章详情页面
- 使用python-aiohttp爬取今日头条
- 今日头条刷赞,今日头条刷评论,今日头条刷文章收藏,今日头条刷阅读量,今日头条刷粉丝,今日头条刷站内浏览量,今日头条流量-流量神器
- 使用python3分析Ajax爬取今日头条上的街拍美图
- Python爬取今日头条段子
- 今日头条文章评论链接