您的位置:首页 > 编程语言 > Java开发

JAVA在线抓取网页中的元素的例子(使用JSoup包进行解析)

2012-08-29 09:41 615 查看
有时候获取数据的时候,无数据源,或者对方不提拱接口和数据库,只提拱一个网站给我们充当数据源,这时候我们就要对网页中的html元素进行抓取,并同时解析,过滤掉我们不需要的数据,得到我们想要的数据,当然我们也可以使用目前主流开源爬虫框架nutch,spider.但如果需求不是很复杂的情况下,比如只爬取小部分网页的情况下,我们就自已写个爬虫类就可以满足我们的需求,以下是我参考网站资源和一些工具类,自已写的一个范例,如下所示:

首先我们抓取一个网页.比如网页的形式为:

<html>
<head><title>First parse</title></head>
<body>
<p>Parsed HTML into a doc.</p>
<p>Parsed HTMfdaL into a dodasc.</p>
</body>
</html>


比如它的网站为: http://demo.blog.com。
下面是写的抓取和解析的过程

1工具类 ClawerClient

/**
* 当有些网页中存在一些嵌套的redirect连接时,它就会报Server redirected too many times这样的错误,
* 这是因为此网页内部又有一些代码是转向其它网页的,循环过多导致程序出错。如果只想抓取本URL中的网页内容,
* 而不愿意让它有其它 的网页跳转,可以用以下的代码。
* @param myurl
* @throws Exception
*/

@SuppressWarnings("static-access")
public static String clawer2(String myurl) throws Exception{
URL urlmy = new URL(myurl);
HttpURLConnection con = (HttpURLConnection) urlmy.openConnection();
con.setFollowRedirects(true);
con.setInstanceFollowRedirects(false);
con.connect();

BufferedReader br = new BufferedReader(new InputStreamReader(con.getInputStream(),"UTF-8"));
String s = "";
StringBuffer sb = new StringBuffer("");
while ((s = br.readLine()) != null) {
sb.append(s+"\r\n");

}
return sb.toString();
}


2.抓取到了数据源之后,我使用JSoup包对它进行解析,JSoup的下载地址为:http://jsoup.org/cookbook/modifying-data/set-html

下面是一个简单的代码片断:

//这里得到网页内容
String htmlContent = ClawerClient.clawer2(url);

//使用jSoup解析里头的内容
//就像操作html doc文档对象一样操作网页中的元素
Document doc = Jsoup.parse(htmlContent);
Element body = doc.body();
Element span = body.select("p").first();

System.out.println(span.text());


就可以获取第一个p元素中的值为:

Parsed HTML into a doc.

当然还有一些比较常用的方法.详细请查看JSoup文档。

(完,待续....................................................................)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: