基于Java的HTML解析器
2010-09-01 18:47
176 查看
最近要做网络信息的采集,解析HTML是必不可少的,查了下这方面的工具还不少,但是不知道哪个好用,似乎HTMLParser是用的多点的,但是从06年开始就不再更新了,大概是已经满足HTML 4的解析了吧,收集了几个看起来不错的,留着备用。
Java Mozilla Html Parser
能够将html解析成Java Document对象。它是一个基于Mozilla Html解析器封装的Html解析类库。因此能够为开发人员提供一个浏览器质量的HTML解析器。
地址:http://mozillaparser.sourceforge.net/
HtmlCleaner
是一个开源的Html文档解析器。HtmlCleaner能够重新排序每个元素然后生成结构良好(Well-Formed)的XML文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。
地址:http://htmlcleaner.sourceforge.net/
HTML Parser
地址:http://htmlparser.sourceforge.net/
Jsoup
是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。比起之前用的HTMLParser方便很多,而且更轻便。
地址:http://jsoup.org/
-------------------------------------------------------------------------
另外可以从开源中国上找到诸如Jsoup的一些文章,如:http://www.oschina.net/p/jsoup
![](http://image.webstory.my/WebStoryLogo24.png)
本文用菊子曰发布
Java Mozilla Html Parser
能够将html解析成Java Document对象。它是一个基于Mozilla Html解析器封装的Html解析类库。因此能够为开发人员提供一个浏览器质量的HTML解析器。
地址:http://mozillaparser.sourceforge.net/
HtmlCleaner
是一个开源的Html文档解析器。HtmlCleaner能够重新排序每个元素然后生成结构良好(Well-Formed)的XML文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。
地址:http://htmlcleaner.sourceforge.net/
HTML Parser
地址:http://htmlparser.sourceforge.net/
Jsoup
是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。比起之前用的HTMLParser方便很多,而且更轻便。
地址:http://jsoup.org/
-------------------------------------------------------------------------
另外可以从开源中国上找到诸如Jsoup的一些文章,如:http://www.oschina.net/p/jsoup
![](http://image.webstory.my/WebStoryLogo24.png)
本文用菊子曰发布
相关文章推荐
- 基于Java的开源HTML解析器:jsoup 1.7.3 发布
- Jsoup 一款Java的HTML解析器
- jsoup 1.6.2发布 最棒的Java HTML解析器
- 基于C# 语言的两个html解析器
- jsoup Cookbook(中文版) Java开发的HTML解析器
- Atitit.html解析器的选型 jsoup nsoup ,java c# .net 版本
- Java中常用html解析器
- Java基于Socket文件传输示例 --- (http://www.blogjava.net/sterning/archive/2007/10/13/152508.html)
- 一个简单的基于Jsoup的HTML信息抓取Java程序
- Java基于正则表达式获取指定HTML标签指定属性值的方法
- 基于 Web 的数据挖掘--自动抽取用 HTML、XML 和 Java 编写的信息
- Java中常用html解析器
- jsoup:一款使用 Java 语言开发的 HTML 解析器
- Java中常用html解析器
- jsoup java html解析器
- Java项目前后端分离-springmvc配置html视图解析器
- jsoup 是一款很好的 Java 的HTML 解析器
- 基于C# 的HTML解析器
- 使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用
- jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址