JAVA在线抓取网页中的元素的例子(使用JSoup包进行解析)
2012-08-29 09:41
615 查看
有时候获取数据的时候,无数据源,或者对方不提拱接口和数据库,只提拱一个网站给我们充当数据源,这时候我们就要对网页中的html元素进行抓取,并同时解析,过滤掉我们不需要的数据,得到我们想要的数据,当然我们也可以使用目前主流开源爬虫框架nutch,spider.但如果需求不是很复杂的情况下,比如只爬取小部分网页的情况下,我们就自已写个爬虫类就可以满足我们的需求,以下是我参考网站资源和一些工具类,自已写的一个范例,如下所示:
首先我们抓取一个网页.比如网页的形式为:
比如它的网站为: http://demo.blog.com。
下面是写的抓取和解析的过程
1工具类 ClawerClient
2.抓取到了数据源之后,我使用JSoup包对它进行解析,JSoup的下载地址为:http://jsoup.org/cookbook/modifying-data/set-html
下面是一个简单的代码片断:
就可以获取第一个p元素中的值为:
Parsed HTML into a doc.
当然还有一些比较常用的方法.详细请查看JSoup文档。
(完,待续....................................................................)
首先我们抓取一个网页.比如网页的形式为:
<html> <head><title>First parse</title></head> <body> <p>Parsed HTML into a doc.</p> <p>Parsed HTMfdaL into a dodasc.</p> </body> </html>
比如它的网站为: http://demo.blog.com。
下面是写的抓取和解析的过程
1工具类 ClawerClient
/** * 当有些网页中存在一些嵌套的redirect连接时,它就会报Server redirected too many times这样的错误, * 这是因为此网页内部又有一些代码是转向其它网页的,循环过多导致程序出错。如果只想抓取本URL中的网页内容, * 而不愿意让它有其它 的网页跳转,可以用以下的代码。 * @param myurl * @throws Exception */ @SuppressWarnings("static-access") public static String clawer2(String myurl) throws Exception{ URL urlmy = new URL(myurl); HttpURLConnection con = (HttpURLConnection) urlmy.openConnection(); con.setFollowRedirects(true); con.setInstanceFollowRedirects(false); con.connect(); BufferedReader br = new BufferedReader(new InputStreamReader(con.getInputStream(),"UTF-8")); String s = ""; StringBuffer sb = new StringBuffer(""); while ((s = br.readLine()) != null) { sb.append(s+"\r\n"); } return sb.toString(); }
2.抓取到了数据源之后,我使用JSoup包对它进行解析,JSoup的下载地址为:http://jsoup.org/cookbook/modifying-data/set-html
下面是一个简单的代码片断:
//这里得到网页内容 String htmlContent = ClawerClient.clawer2(url); //使用jSoup解析里头的内容 //就像操作html doc文档对象一样操作网页中的元素 Document doc = Jsoup.parse(htmlContent); Element body = doc.body(); Element span = body.select("p").first(); System.out.println(span.text());
就可以获取第一个p元素中的值为:
Parsed HTML into a doc.
当然还有一些比较常用的方法.详细请查看JSoup文档。
(完,待续....................................................................)
相关文章推荐
- JAVA在线抓取网页中的元素的例子(使用JSoup包进行解析)
- Java网页资源抓取例子(使用第三方包Jsoup解析Html)
- Java网络爬虫(五)--使用Jsoup的select语法进行元素查找
- Jsoup简介——使用Java抓取网页数据
- 使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的web应用
- 使用httpclient jsoup 及jetty 全自动登录网站 抓取网页,解析并展示
- 网页抓取解析,使用JQuery选择器进行网页解析
- 使用java开源工具httpClient及jsoup抓取解析网页数据
- Jsoup简介——使用Java抓取网页数据
- 使用HttpClient和Jsoup进行简单数据抓取、解析
- 使用java的html解析器jsoup和jQuery实现一个自动重复抓取任意网站页面指定元素的...
- 使用java开源工具httpClient及jsoup抓取解析网页数据
- jsp|java跨域取出网页指定元素htmlParer使用小例子
- 在java程序中使用jQuery抓取网页的新方法(java调用js解析引擎)
- Java - 抓取优酷网视频播放页面(使用jsoup解析html,正则表达式处理字符串)
- java 使用Jsoup解析URL网页信息
- Jsoup简介——使用Java抓取网页数据
- 使用jsoup进行网页内容抓取
- 使用Jsoup进行网页数据抓取
- Java中使用Jsoup对Html文档进行解析和操作