基于webkit技术的爬虫
2013-10-26 10:35
155 查看
这几天发现爬虫很有趣,我们基于爬虫可以实现很多产品。如果想基于爬虫技术来实现解析符合html5规范的页面的客户端,阅读器就是一个很好地应用。
多数阅读器多是基于数据订阅的,估计是通过定时发起AJAX来获取页面的内容,一些智能化的方面便现在定向推荐。如果有些站点没有提供订阅功能,我们是否可以通过定向规则定制的方式来实现对这些页面的订阅呢,说不定已经有人实现了。
目前搜狗和QQ的阅读器是兼容webkit的。
参考实现方案http://www.hackhome.com/InfoView/Article_200440.html,目前采用的应该是webkit2+wayland结构
其实我在想我们也可以直接采用android或者cef3,或者node-webkit来实现,不过感觉cef3会更好些。
多数阅读器多是基于数据订阅的,估计是通过定时发起AJAX来获取页面的内容,一些智能化的方面便现在定向推荐。如果有些站点没有提供订阅功能,我们是否可以通过定向规则定制的方式来实现对这些页面的订阅呢,说不定已经有人实现了。
目前搜狗和QQ的阅读器是兼容webkit的。
参考实现方案http://www.hackhome.com/InfoView/Article_200440.html,目前采用的应该是webkit2+wayland结构
其实我在想我们也可以直接采用android或者cef3,或者node-webkit来实现,不过感觉cef3会更好些。
相关文章推荐
- 基于Hadoop 的分布式网络爬虫技术学习笔记
- 爬虫采集-基于webkit核心的客户端Ghost.py [爬虫实例]
- SuperSpider 基于webkit的web2.0爬虫介绍
- 爬虫采集-基于webkit核心的客户端Ghost.py [爬虫实例] 推荐
- 基于WebKit的网络爬虫
- 爬虫采集-基于webkit核心的客户端Ghost.py [爬虫实例]
- 基于Hadoop 的分布式网络爬虫技术学习笔记
- 基于WebKit的网络爬虫
- 基于Hadoop 的分布式网络爬虫技术学习笔记
- 爬虫技术-基于java
- 借助动态代码生成技术在基于Webkit引擎的HTML5网页JS内调用易语言函数
- 基于网络爬虫的XSS漏洞检测技术
- 基于Hadoop 的分布式网络爬虫技术学习笔记
- 基于RCurl包的爬虫技术
- 基于storm做爬虫的可能性
- Python爬虫技术汇总
- 基于Spring框架的WebSphere应用开发技术
- 零基础如何学爬虫技术?
- 基于DotNet构件技术的企业级敏捷软件开发平台 - AgileEAS.NET - 文章汇总及学习指南
- 基于Windows核心技术的网络监控教学系统的研究(转)