第十四篇:机器学习实战:网络数据爬虫篇:豆瓣海报爬虫任务(json格式数据的抓取):任务分解、爬虫基础知识了解、谷歌开发者工具、代码实战
2020-07-15 05:58
916 查看
1 任务
1. 用python去豆瓣电影这个网站把”成龙“的相关海报抓取下来 2. 任务分解:写一个 python爬虫的脚本, 去豆瓣电影,爬取 名字里含有 “成龙” 的海报照片
2 具体分析
1。什么是爬虫:爬虫实际上是用浏览器访问的方式模拟了访问网站的过程,整个过程包括三个阶段:打开网页、提取数据和保存数据 * 打开网页:Requests, 发送HTTP请求: A. request主要分GET和POST B. 用法分分别是:r = requests.get('http://www.douban.com') 和r = requests.post('http://xxx.com', data = {'key':'value'}) * 提取数据: 如果是 HTML 页面,可以使用 XPath 进行元素定位,提取数据;如果是JSON 数据,可以使用 JSON 进行解析 * 保存数据: 可以使用 Pandas 保存数据,最后导出 CSV 文件 2。 XPath知识补充:XPath 是 XML 的路径语言,实际上是通过元素和属性进行导航,帮我们定位位置。它有几种常用的路径表达方式。 简单举一些例子:1.xpath(‘node’) 选取了 node 节点的所有子节点; 2.xpath(’/div’) 从根节点上选取 div 节点; 3.xpath(’//div’) 选取所有的 div 节点; 剩余的你网上可以查 3。 JSON 是一种轻量级的交互方式 就比较简单了 将 JSON 对象直接转换成为 Python 对象,我们对数据进行解析就更方便 我们一般用json库
3 谷歌开发者工具的了解
1。 在chrome开发者工具里面监控 输入人名后网络流的全过
相关文章推荐
- python 爬虫基础知识,返回值为json数据的 爬虫原代码
- python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例
- [知识图谱实战篇] 一.数据抓取之Python3抓取JSON格式的电影实体
- Python网络爬虫基础知识学习
- Swift学习笔记(2)网络数据交换格式(XML,JSON)解析 [iOS实战 入门与提高卷]
- 代码注释:机器学习实战第8章 预测数值型数据:回归
- Node.js学习之网络爬虫(使用cheerio抓取网页数据)
- 零基础学习Python web开发、Python爬虫、Python数据分析,从基础到项目实战!
- 爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps,loads,dump,load方法介绍
- 【散装知识】Json数据格式学习
- 第一行代码总结:10网络:10.4解析JSON格式数据10.4.1使用JSONObject
- ios网络学习------6 json格式数据的请求处理
- 学习笔记(07):零基础搞定Python数据分析与挖掘-网络爬虫的流程和常用包
- 第一行代码总结:10网络:10.4解析JSON格式数据10.4.2使用GSON
- python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息,抓取政府网新闻内容
- 大数据实战课程第一季Python基础和网络爬虫数据分析
- 小猪的Python学习之旅 —— 14.项目实战:抓取豆瓣音乐Top 250数据存到Excel中
- 数据分析与爬虫实战视频——学习笔记(五)(京东爬虫、 json数据、分布式爬虫概念、Linux基础)
- 大数据实战课程第一季Python基础和网络爬虫数据分析
- 计算机网络学习笔记P18 数据通信基础知识总结