Jsoup实现网络爬虫抓取数据
2017-03-09 13:37
323 查看
Jsoup实现网络爬虫抓取数据
在编写一个软件,例如关于教务软件的时候,需要获取学校官网的一些新闻信息来充实自己的软件,而又不会专门提供相关的api接口,此时就需要我们自己动手来抓取感兴趣的信息。有人会问抓取网站的信息是否会侵权。其实,一般能够通过浏览器访问得到的信息,都是公开的,抓取信息后不用来获取利益是不会有关系的,只是换了一个浏览方式而已。获取整个网页的源码
想要抓取网页中的信息,首先要先获取整个网页的源码String url = "http://i.guet.edu.cn/"; Document doc = Jsoup .connect(url) .timeout(1000).get();
通过Jsoup中的方法,我们很容易就获得了目标网页的源码Document对象。好了,获取到整个网页的源码后,接下来就是抓取自己想要的信息了,我们现在想要获取的是网页中滑动banner的图片地址,如下图:
通过以下代码很容易就可以得到图片的相对网址
Elements elements = doc.select("div#pic_lun"); Elements elements2 = elements.select("img"); for (Element el:elements2){ System.out.println(el.attr("src")); }
控制台输出如下:
如此,就获得了我们想要的信息。再比如获取新闻:
网页中的信息:
html源码部分:
然后我们试着来抓取:
String url_news = "http://i.guet.edu.cn/news.php?page=1&type=85"; Document doc = Jsoup .connect(url_news) .timeout(1000).get(); Elements e1 = doc.select("div#content_middle"); Elements e2 = e1.select("a"); // System.out.print(e2); for (Element el2 : e2) { if (el2.text().length() > 20) { StringBuffer sb = new StringBuffer(); sb.append(el2.text()); String time = sb.substring(0, 9); String title = sb.substring(12); System.out.print("time:"+time+"\n"); System.out.print("title:"+title+"\n"); System.out.print("link:"+"http://i.guet.edu.cn/"+el2.attr("href")+"\n"); } }
控制台输出如下:
到此就完成了数据的抓取,还要将数据加入到listview中显示出来,这些数据才会有意义,革命尚未成功,同志仍需努力。
本人新手,有错指正,文章原创
相关文章推荐
- 【使用JSOUP实现网络爬虫】修改数据-设置属性的值
- 【使用JSOUP实现网络爬虫】修改数据-设置元素的文本内容
- 【使用JSOUP实现网络爬虫】修改数据-设置一个元素的HTML内容
- [置顶] Jsoup实现网络数据抓取1
- 【使用JSOUP实现网络爬虫】修改数据-设置一个元素的HTML内容
- 【使用JSOUP实现网络爬虫】修改数据-设置元素的文本内容
- [Android] - Jsoup实现网络爬虫,获取糗事百科数据
- java简单实现爬虫、jsoup实现网页抓取、POI实现数据导出Excel
- Python 网络爬虫5 ---- 第一次实现抓取数据并且存放到mysql数据库中
- java实现网络爬虫--抓取网站数据
- [置顶] Jsoup实现网络数据抓取2
- 【使用JSOUP实现网络爬虫】修改数据-设置元素的文本内容
- 【使用JSOUP实现网络爬虫】修改数据-设置属性的值
- 【使用JSOUP实现网络爬虫】修改数据-设置属性的值
- 【使用JSOUP实现网络爬虫】解析一个body片断
- 【使用JSOUP实现网络爬虫】从元素抽取属性,文本和HTML
- Python 实现网络爬虫 抓取静态网页【代码】
- 【使用JSOUP实现网络爬虫】使用DOM方法来遍历一个文档
- 如何通过jsoup网络爬虫工具爬取网页数据,并通过jxl工具导出到excel
- 爬虫相关(3)----- 深度剖析Jsoup抓取数据