java爬虫 之 搜狐新闻爬虫(三)
2016-04-15 18:50
357 查看
有了上两篇的文章,这篇简单的将两篇文章结合起来,得到一个可以抓取,搜狐新闻首页的所有新闻。
得到的结果如下:
package com.sohu; import java.io.IOException; import java.util.*; import org.jsoup.*; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class ClawerMain { public static void main(String[] args) { // TODO Auto-generated method stub try { Document doc = Jsoup.connect("http://news.sohu.com/").get(); Elements links = doc.select("a[href]"); for(Element link : links){ String StrUrl = link.attr("abs:href"); if(StrUrl.startsWith("http://news.sohu.com/2016"))//抓2016年的新闻 { System.out.println(StrUrl); try { Document TempDoc; TempDoc = Jsoup.connect(StrUrl).get(); Elements h = TempDoc.select("h1[itemprop]");//标题 System.out.println(h.text()); Elements time = TempDoc.select("div.time");//时间 System.out.println(time.text()); Elements source = TempDoc.select("div[class=source]");//来源 System.out.println(source.text()); Elements body = TempDoc.select("div[itemprop=articleBody]");//内容 System.out.println(body.text()); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } } } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } }
得到的结果如下:
相关文章推荐
- eclipse svn使用小记
- JAVA学习篇--静态代理VS动态代理
- Java--计算中英文长度的若干种方法
- java爬虫 之 搜狐新闻爬虫(二)
- javaw.exe 和java.exe的区别
- 字符串转AscII
- Spring+SpringMVC+MyBaties学习笔记(一)环境搭建
- 【持久化框架】SpringMVC+Spring4+Mybatis3集成,开发简单Web项目+源码下载
- Spring3+MyBatis3整合无法输出SQL语句问题的解决
- Java学习-9天
- java静态代理和动态代理
- memcpy,vector,进程线程区别,java垃圾回收
- java爬虫 之 搜狐新闻爬虫(一)
- TTP access control (CORS) 以及 spring 解决方法
- spring初步概念(待逐步梳理)
- 如何限制同一客户端登录的用户数量以及禁止同一用户同时在不同客户端登录
- RxJava 实践
- java使用线程请求访问每次间隔10分钟连续5次,之后停止请求
- java使用线程请求访问每次间隔10分钟连续5次,之后停止请求
- JAVA第五次作业