使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的...
2012-07-20 00:00
1026 查看
日期:2012-7-20 来源:GBin1.com
在线演示 本地下载
如果你曾经开发过内容聚合类网站的话,使用程序动态整合来自不同页面或者网站内容的功能肯定对于你来说非常熟悉。通常使用java的话,我们都会使用到一些HTML的解析,例如,httpparser,最早gbin1.com的整合搜索就是使用httpparser来抓取Google和Baidu的搜索结果,并且整合呈现给搜索用户,这也就是GBin1域名的由来。
那么今天呢,我们介绍另外一个超棒的Java的HTML解析器 - jsoup,这个类库可以帮助大家实时的处理HTML。提供了非常方便的API来提取和处理数据,最重要的它使用类似jQuery的语法来处理DOM,CSS等,如果你使用过jQuery的话,就知道它处理DOM的强大方便之处。
可以从URL,文件或者字符串中抓取和解析HTML
使用DOM的查询和CSS选择器来查找和解压数据
可以处理HTML的属性,元素和文本
帮助用户处理递交的内容,并且防止XSS攻击
输出干净的HTML
基本上jsoup可以帮助你处理各种的HTML问题,并且帮助你验证非法的tag,创建一个干净的DOM树。
.....
来源:使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用
在线演示 本地下载
如果你曾经开发过内容聚合类网站的话,使用程序动态整合来自不同页面或者网站内容的功能肯定对于你来说非常熟悉。通常使用java的话,我们都会使用到一些HTML的解析,例如,httpparser,最早gbin1.com的整合搜索就是使用httpparser来抓取Google和Baidu的搜索结果,并且整合呈现给搜索用户,这也就是GBin1域名的由来。
那么今天呢,我们介绍另外一个超棒的Java的HTML解析器 - jsoup,这个类库可以帮助大家实时的处理HTML。提供了非常方便的API来提取和处理数据,最重要的它使用类似jQuery的语法来处理DOM,CSS等,如果你使用过jQuery的话,就知道它处理DOM的强大方便之处。
主要特性
jsoup实现了WHATWG HTML5 的标准,和现代浏览器解析DOM的方式一样。主要功能:可以从URL,文件或者字符串中抓取和解析HTML
使用DOM的查询和CSS选择器来查找和解压数据
可以处理HTML的属性,元素和文本
帮助用户处理递交的内容,并且防止XSS攻击
输出干净的HTML
基本上jsoup可以帮助你处理各种的HTML问题,并且帮助你验证非法的tag,创建一个干净的DOM树。
.....
来源:使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用
相关文章推荐
- 使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用
- 使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用
- 使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用
- 使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用
- 使用jsoup抓取指定网站地址的class的html内容
- 【使用JSOUP实现网络爬虫】修改数据-设置一个元素的HTML内容
- 【使用JSOUP实现网络爬虫】修改数据-设置一个元素的HTML内容
- 一个小型的网站,比如个人网站,可以使用最简单的html静态页面就实现了,配合一些图片达到美化效果,所有的页面均存放在一个目录下,这样的网站对系统架构、性能的要求都很简单,随着互联网业务的不断丰富,网站
- Java - 抓取优酷网视频播放页面(使用jsoup解析html,正则表达式处理字符串)
- jsoup Java HTML解析器:使用选择器语法来查找元素
- JAVA使用jsoup技术实现网站URL解析爬取|爬取网站登陆后页面动态数据
- 使用jQuery加载html页面到指定的div实现方法
- 使用jquery实现页面滚动到底部自动加载新的信息
- 使用IHttpHandler接口实现【不同路径+任意URL后缀重写到指定页面且URL地址不变】(附源码)_AX
- 【使用JSOUP实现网络爬虫】从元素抽取属性,文本和HTML
- Jsoup抓取数据实现为一个网站做第三方Android客户端
- 使用Ext.UpdateManager实现页面任意部分自动刷新处理
- 使用java IO实现指定后缀的文件合并为一个文件
- java web开发中,jsp使用了frameset框架,如何实现整个页面跳转,并且同一个表单中可以提交两个action
- [导入]使用Ext.UpdateManager实现页面任意部分自动刷新处理