Jsoup读取东方财富网站数据实例
2015-07-29 20:44
591 查看
Jsoup挺好用,可以方便的在java中抓取html的内容,记录一个抓取东方财富网站信息的例子
目标:获取快讯中的标题条目和时间,如果是href需要抓下href信息,保存到本地自己的Message类中
目标:获取快讯中的标题条目和时间,如果是href需要抓下href信息,保存到本地自己的Message类中
Document doc = Jsoup.connect("http://kuaixun.eastmoney.com/").get(); //读取要访问的网站 Element data = doc.getElementById("livenews-list"); //找到要解析的节点 System.out.println(data); List<News> list = new ArrayList<News>(); Elements newElement = data.getElementsByClass("media-title-box"); //找到节点中要解析的内容条目 System.out.println(newElement.size()); for(Element e : newElement){ Elements contents = e.getElementsByClass("media-title"); //获取标题 System.out.println(contents.size()); if(contents.isEmpty()){ continue; } Element content = contents.get(0); System.out.println(content); News message = new News(); if(content.hasAttr("href")){ message.setLink(content.attr("href"));<span style="font-family: Arial, Helvetica, sans-serif;">//获取href link如果存在</span> } message.setTitle(content.text()); list.add(message); } newElement = data.getElementsByClass("time"); System.out.println(newElement.size()); int i = 0; for(Element e : newElement){ list.get(i).setTime(e.text()); //因为条目和时间节点是一一对应,直接给对应message time字段赋值 i++; } for(News message : list){ System.out.println(message.getTime() + "------" + message.getLink() + "----" + message.getTitle()); }
相关文章推荐
- C/C++源代码的网站
- 攻击网站的游戏(连续的三个数字)含有ArrayList的升级版
- 网站ssl加密
- 大型网站架构演化
- 攻击网站的游戏(simple连续的三个数字)
- 系统架构师秘籍(三)建筑学的角度和关注
- 架构师速成6.7-设计开发思路-uml
- 架构师速成6.7-设计开发思路-uml 分类: 架构师速成 2015-07-29 18:25 157人阅读 评论(0) 收藏
- 游戏架构脚本该如何来写
- 前端看到一些不错的写法,网站,资源网站,字体等
- uStart.org的网站实现初步研究
- 理解本真的REST架构风格
- 如何使用免费餐饮收银管理系统搭建一个外卖订餐平台网站?
- 为什么大型网站都采用get方法,而非post方法
- php获取网站百度快照日期的方法
- 图标素材网站收集
- HDFS架构
- 解密百度2015年5月大量网站被降权原因之站内优化
- Android学习资料及工具网站
- 微博feed系统的推(push)模式和拉(pull)模式和时间分区拉模式架构探讨