您的位置：首页 > 理论基础 > 计算机网络

第十四篇：机器学习实战：网络数据爬虫篇：豆瓣海报爬虫任务（json格式数据的抓取）：任务分解、爬虫基础知识了解、谷歌开发者工具、代码实战

2020-07-15 05:58 916 查看

1 任务

1. 用python去豆瓣电影这个网站把”成龙“的相关海报抓取下来
2. 任务分解：写一个 python爬虫的脚本， 去豆瓣电影，爬取 名字里含有 “成龙” 的海报照片

2 具体分析

1。什么是爬虫：爬虫实际上是用浏览器访问的方式模拟了访问网站的过程，整个过程包括三个阶段：打开网页、提取数据和保存数据
* 打开网页：Requests， 发送HTTP请求：
A. request主要分GET和POST
B. 用法分分别是：r = requests.get('http://www.douban.com')
和r = requests.post('http://xxx.com', data = {'key':'value'})
* 提取数据： 如果是 HTML 页面，可以使用 XPath 进行元素定位，提取数据；如果是JSON 数据，可以使用 JSON 进行解析
* 保存数据： 可以使用 Pandas 保存数据，最后导出 CSV 文件

2。 XPath知识补充：XPath 是 XML 的路径语言，实际上是通过元素和属性进行导航，帮我们定位位置。它有几种常用的路径表达方式。
简单举一些例子：1.xpath(‘node’) 选取了 node 节点的所有子节点；
2.xpath(’/div’) 从根节点上选取 div 节点；
3.xpath(’//div’) 选取所有的 div 节点；  剩余的你网上可以查

3。 JSON 是一种轻量级的交互方式 就比较简单了 将 JSON 对象直接转换成为 Python 对象，我们对数据进行解析就更方便 我们一般用json库

3 谷歌开发者工具的了解

1。 在chrome开发者工具里面监控 输入人名后网络流的全过

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航