您的位置：首页 > 理论基础 > 计算机网络

Jsoup实现网络爬虫抓取数据

2017-03-09 13:37 323 查看

Jsoup实现网络爬虫抓取数据

在编写一个软件，例如关于教务软件的时候，需要获取学校官网的一些新闻信息来充实自己的软件，而又不会专门提供相关的api接口，此时就需要我们自己动手来抓取感兴趣的信息。有人会问抓取网站的信息是否会侵权。其实，一般能够通过浏览器访问得到的信息，都是公开的，抓取信息后不用来获取利益是不会有关系的，只是换了一个浏览方式而已。

获取整个网页的源码

想要抓取网页中的信息，首先要先获取整个网页的源码

String url = "http://i.guet.edu.cn/";
Document doc = Jsoup
.connect(url)
.timeout(1000).get();

通过Jsoup中的方法，我们很容易就获得了目标网页的源码Document对象。好了，获取到整个网页的源码后，接下来就是抓取自己想要的信息了，我们现在想要获取的是网页中滑动banner的图片地址，如下图：

通过以下代码很容易就可以得到图片的相对网址

Elements elements = doc.select("div#pic_lun");
Elements elements2 = elements.select("img");
for (Element el:elements2){
System.out.println(el.attr("src"));
}

控制台输出如下：

如此，就获得了我们想要的信息。再比如获取新闻：

网页中的信息：

html源码部分：

然后我们试着来抓取：

String url_news = "http://i.guet.edu.cn/news.php?page=1&type=85";
Document doc = Jsoup
.connect(url_news)
.timeout(1000).get();
Elements e1 = doc.select("div#content_middle");
Elements e2 = e1.select("a");
//      System.out.print(e2);
for (Element el2 : e2) {
if (el2.text().length() > 20) {
StringBuffer sb = new StringBuffer();
sb.append(el2.text());
String time = sb.substring(0, 9);
String title = sb.substring(12);
System.out.print("time:"+time+"\n");
System.out.print("title:"+title+"\n");
System.out.print("link:"+"http://i.guet.edu.cn/"+el2.attr("href")+"\n");
}
}

控制台输出如下：

到此就完成了数据的抓取，还要将数据加入到listview中显示出来，这些数据才会有意义，革命尚未成功，同志仍需努力。

本人新手，有错指正，文章原创

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航