您的位置:首页 > 理论基础 > 计算机网络

第十四篇:机器学习实战:网络数据爬虫篇:豆瓣海报爬虫任务(json格式数据的抓取):任务分解、爬虫基础知识了解、谷歌开发者工具、代码实战

2020-07-15 05:58 916 查看

1 任务

1. 用python去豆瓣电影这个网站把”成龙“的相关海报抓取下来
2. 任务分解:写一个 python爬虫的脚本, 去豆瓣电影,爬取 名字里含有 “成龙” 的海报照片

2 具体分析

1。什么是爬虫:爬虫实际上是用浏览器访问的方式模拟了访问网站的过程,整个过程包括三个阶段:打开网页、提取数据和保存数据
* 打开网页:Requests, 发送HTTP请求:
A. request主要分GET和POST
B. 用法分分别是:r = requests.get('http://www.douban.com')
和r = requests.post('http://xxx.com', data = {'key':'value'})
* 提取数据: 如果是 HTML 页面,可以使用 XPath 进行元素定位,提取数据;如果是JSON 数据,可以使用 JSON 进行解析
* 保存数据: 可以使用 Pandas 保存数据,最后导出 CSV 文件

2。 XPath知识补充:XPath 是 XML 的路径语言,实际上是通过元素和属性进行导航,帮我们定位位置。它有几种常用的路径表达方式。
简单举一些例子:1.xpath(‘node’) 选取了 node 节点的所有子节点;
2.xpath(’/div’) 从根节点上选取 div 节点;
3.xpath(’//div’) 选取所有的 div 节点;  剩余的你网上可以查

3。 JSON 是一种轻量级的交互方式 就比较简单了 将 JSON 对象直接转换成为 Python 对象,我们对数据进行解析就更方便 我们一般用json库

3 谷歌开发者工具的了解

1。 在chrome开发者工具里面监控 输入人名后网络流的全过
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐