搭建scrapy抓取javascript动态数据的爬虫
2015-07-22 10:52
656 查看
由于简单的scrapy设置无法抓取如京东产品价格信息等javascript动态输出的数据,需要采用selenium、PhantomJS等工具辅助。
运用这些工具的原理其实就是类似用浏览器打开需要爬取的网页,运行javascript产生目标数据后用scrapy进行采集。
当前平台:ubuntu14.04, Python 2.7
安装软件版本:selenium 2.46.1,
安装过程:
1、scrapy安装:可以按照scrapy网站关于ubuntu下安装说明,直接apt很简单;
2、selenium:按照官网说明安装,安装包下载:https://pypi.python.org/packages/source/s/selenium/selenium-2.46.1.tar.gz ,安装命令:sudo python setup.py install
3、PhantomJS 2.0 没有ubuntu稳定安装包,只能自行编译,过程看官网指南: http://phantomjs.org/build.html 。安装包比较大,在淘宝镜像下载比较方便: http://npm.taobao.org/mirrors/phantomjs 。编译过程30分钟以上,不得已而为之。
运用这些工具的原理其实就是类似用浏览器打开需要爬取的网页,运行javascript产生目标数据后用scrapy进行采集。
当前平台:ubuntu14.04, Python 2.7
安装软件版本:selenium 2.46.1,
安装过程:
1、scrapy安装:可以按照scrapy网站关于ubuntu下安装说明,直接apt很简单;
2、selenium:按照官网说明安装,安装包下载:https://pypi.python.org/packages/source/s/selenium/selenium-2.46.1.tar.gz ,安装命令:sudo python setup.py install
3、PhantomJS 2.0 没有ubuntu稳定安装包,只能自行编译,过程看官网指南: http://phantomjs.org/build.html 。安装包比较大,在淘宝镜像下载比较方便: http://npm.taobao.org/mirrors/phantomjs 。编译过程30分钟以上,不得已而为之。
相关文章推荐
- 12. JavaScript Number 对象
- BZOJ 1032 [JSOI2007]祖码Zuma
- 图解Javascript原型链
- jsp版本端口转发
- Javascript高级程序设计读书笔记(第二章)
- 普元日记---js基本操作
- JavaScript中的BOM与DOM详解
- 在Chrome调试JavaScript代码以及审查元素各个tab说明
- fastjson json高性能处理类
- .net中json字符串和对象之间的转化方法
- javascript中的字符串中出现变量,该如何连接
- jsp的onclick事件跳转js时,被省去位数前面的0
- 使用JavaScript的Canvas模拟CSS3中的background-size:cover;
- 详解js跨域问题
- 参数传递的四种形式----- URL,超链接,js,form表单
- javascript 实现HashTable(哈希表)
- 有几数组表单,js怎么获得数组并动态相加输出到文本框
- 安卓中的JSON解析
- javascript中的this
- 使用JavaScript和Canvas实现下雪动画效果