python抓取网页中的动态数据
2017-08-05 15:42
260 查看
一、概念
网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的。所以也就引出了什么是动态数据的概念,动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到浏览器后动态生成的,而之前并没有的。在编写爬虫进行网页数据抓取的时候,经常会遇到这种需要动态加载数据的HTML网页,如果还是直接从网页上抓取那么将无法获得任何数据。
二、操作
1.先进入网址如:https://dujia.qunar.com/
2.在Chrome浏览器中,点击F12,打开Network中的XHR,我们来抓取对应的js文件来进行解析:
3.向下拖拽或点击获取更多时,使得页面加载入更多的数据信息,从而我们可以抓取对应的报文。如点击“度假”
4.查看XHR
5.访问Request URL查看json信息:
https://dujia.qunar.com/golfz/urlProxy/proxy.qunar?urlPath=http%3A%2F%2Fdiy.dujia.qunar.com%2Fapi%2Fdest.json&_=1501918232175
网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的。所以也就引出了什么是动态数据的概念,动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到浏览器后动态生成的,而之前并没有的。在编写爬虫进行网页数据抓取的时候,经常会遇到这种需要动态加载数据的HTML网页,如果还是直接从网页上抓取那么将无法获得任何数据。
二、操作
1.先进入网址如:https://dujia.qunar.com/
2.在Chrome浏览器中,点击F12,打开Network中的XHR,我们来抓取对应的js文件来进行解析:
3.向下拖拽或点击获取更多时,使得页面加载入更多的数据信息,从而我们可以抓取对应的报文。如点击“度假”
4.查看XHR
5.访问Request URL查看json信息:
https://dujia.qunar.com/golfz/urlProxy/proxy.qunar?urlPath=http%3A%2F%2Fdiy.dujia.qunar.com%2Fapi%2Fdest.json&_=1501918232175
相关文章推荐
- 浅谈如何使用python抓取网页中的动态数据
- python网络爬虫抓取ajax动态网页数据:以抓取KFC门店地址为例
- Python抓取网页动态数据——selenium webdriver的使用
- python+selenium+PhantomJS抓取ajax动态网页数据
- 小猪的Python学习之旅 —— 5.使用Selenium抓取JavaScript动态生成数据的网页
- 抓取Js动态生成数据且以滚动页面方式分页的网页
- 网页爬虫抓取js动态渲染数据
- 使用python抓取js动态加载的网页
- 7、抓取动态网页的数据内容
- python网页数据抓取全纪录
- 【Python爬虫5】提取JS动态网页数据
- python项目之 抓取动态网页 抓取路由器客户
- python3 网络爬虫(二)利用get请求获取网页的动态加载数据
- 通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据
- 如何用Python,C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站
- 利用python抓取网页各种类型内容(静态、动态)
- 如何用Python,C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站
- Python selenium爬虫抓取船舶网站数据(动态页面)
- Python爬虫实战(4):豆瓣小组话题数据采集—动态网页
- python抓取动态数据