Jsoup解析本地html,对文本内容提取
2013-09-22 11:17
267 查看
前4天我都在对html解析的研究,刚开始了解到的是 htmlparser 这个开源项目,从零开始摸索
了3天,还是一头雾水,我说的是整整的3天哦,被一大堆的方法给弄晕乎,应该是自己没有弄懂api
到第3天晚上的时候。看到一篇播客写了Joup..引用原文:
《但现在我已经不再使用 htmlparser 了,原因是 htmlparser 很少更新,但最重要的是有了 jsoup 。
jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。
jsoup 的主要功能如下:
1. 从一个 URL,文件或字符串中解析 HTML;
2. 使用 DOM 或 CSS 选择器来查找、取出数据;
3. 可操作 HTML 元素、属性、文本;
jsoup 是基于 MIT 协议发布的,可放心使用于商业项目。》
随便了解一下,到了第4天的时候,我决定开始深入一下Jsoup因为在开源中国中有一个Jsoup专题。看起来很爽,复制其中的代码
运行起来更爽,代码简单清晰,明了。
然后我 又jsoup官网了解了api.虽然英语不是很好,但由于其简单明了,居然让我看懂了,自己尝试了用api编写了自己想要的程序
。运行时刚开始出现了很多乱码,纠结了我一天,最后到了第二天。这一个晚上睡觉真的没有睡好,脑子里一直惦记这着事情。
第二天,我开始继续分析,一行一行的,中间有个编码的格式,我想会不会是这里的问题,然后我找到输入文件,查看了文件编码格式,
顿时,一道灵光从脑袋直冲天灵盖。大彻大悟了-----------------------------------
改了编码格式,我想要的东西出来了,我兴奋的围着房子走了几圈。
然后我继续研究api,实在是太高兴了,后期我会学习一下chm的制作,争取做一个中文jsoup api的chm查看文档,对自己研究的jsoup
画一个美好的逗号,帮助一下和我一样的初学者
了3天,还是一头雾水,我说的是整整的3天哦,被一大堆的方法给弄晕乎,应该是自己没有弄懂api
到第3天晚上的时候。看到一篇播客写了Joup..引用原文:
《但现在我已经不再使用 htmlparser 了,原因是 htmlparser 很少更新,但最重要的是有了 jsoup 。
jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。
jsoup 的主要功能如下:
1. 从一个 URL,文件或字符串中解析 HTML;
2. 使用 DOM 或 CSS 选择器来查找、取出数据;
3. 可操作 HTML 元素、属性、文本;
jsoup 是基于 MIT 协议发布的,可放心使用于商业项目。》
随便了解一下,到了第4天的时候,我决定开始深入一下Jsoup因为在开源中国中有一个Jsoup专题。看起来很爽,复制其中的代码
运行起来更爽,代码简单清晰,明了。
然后我 又jsoup官网了解了api.虽然英语不是很好,但由于其简单明了,居然让我看懂了,自己尝试了用api编写了自己想要的程序
。运行时刚开始出现了很多乱码,纠结了我一天,最后到了第二天。这一个晚上睡觉真的没有睡好,脑子里一直惦记这着事情。
第二天,我开始继续分析,一行一行的,中间有个编码的格式,我想会不会是这里的问题,然后我找到输入文件,查看了文件编码格式,
顿时,一道灵光从脑袋直冲天灵盖。大彻大悟了-----------------------------------
改了编码格式,我想要的东西出来了,我兴奋的围着房子走了几圈。
然后我继续研究api,实在是太高兴了,后期我会学习一下chm的制作,争取做一个中文jsoup api的chm查看文档,对自己研究的jsoup
画一个美好的逗号,帮助一下和我一样的初学者
相关文章推荐
- 【Java Utility】Jsoup网页爬虫工具--从元素/元素集中提取属性、文本和HTML内容【九】
- 应用Jsoup解析给定的某个URL地址、HTML文本内容。
- 使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)(转)
- 搜索引擎(2)从html中提取文本内容
- java-jsoup解析html页面的内容
- htmlParser解析提取html文件内容
- 用java从网络上抓取HTML文件内容并写入本地文本中
- 使用Jsoup解析Html,获取网页内容
- 使用HTMLParser 解析html字符串,去除html标签,提取纯文本
- GOOGLE Gadgets 处理远程内容,如何提取和控制远程文本(通常为 HTML)、XML、JSON 和 RSS/Atom 供稿数据。
- 黄聪:使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)
- 使用jsoup解析html的table中的文本信息实例
- 使用Jsoup提取HTML元素,修改HTML内容
- java-jsoup解析html页面的内容
- 使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies .
- java-jsoup-解析html文本
- 使用所见即所得文本编辑器编辑文本存入数据库后通过ajax获取服务器json_encode的数据到前台,文本内容上边的html标签不解析
- java-jsoup解析html页面的内容
- 使用jsoup解析html页面内容案例
- Asp.net解析HTML并利用XPATH分析提取内容