java爬虫 之 搜狐新闻爬虫(二)
2016-04-15 18:40
369 查看
我们可以发现搜狐新闻的新闻页都是有规律的比如:
http://news.sohu.com/20160415/n444266195.shtml
在浏览器中右键检查元素
可以找到锁定文章标题,时间,来源的标签
那么经过分析确定标签可以得到下面的代码:
运行一下得到结果:
英媒:美防长将于15日登上航母穿越南海争议水域
2016-04-15 11:46:17
来源:环球网
【环球网报道 记者 韩梅】据英国路透社4月15日报道,美国国防部长卡特将于周五登上美国航母,穿过南海争议水域。报道称,去年11月,卡特也有过类似举动。在此次美菲举行的联合军演中,卡特将登上的“斯坦尼斯号”航母也参与其中。 此前据美联社报道,卡特14日在马尼拉拜会菲律宾总统阿基诺三世,并与菲律宾国防部长加斯明举行双边会议。卡特在会后的记者会上说:“上个月我们在南海展开了联合海事巡逻。”他还表示,在15日的年度肩并肩演习结束后,将派275名美军人员暂时留在菲律宾。此外,5架A-10C雷霆攻击机,以及4架其他型号的战机也将继续留在菲律宾,直到4月底才会撤离。
每个网站的结构不一样,建议多试一个网页,以确保,抓取的标签没错。
http://news.sohu.com/20160415/n444266195.shtml
在浏览器中右键检查元素
可以找到锁定文章标题,时间,来源的标签
那么经过分析确定标签可以得到下面的代码:
Elements h = doc.select("h1[itemprop]");//标题 System.out.println(h.text()); Elements time = doc.select("div.time");//时间 System.out.println(time.text()); /* Element source = doc.select("span[itemprop=name]").first();//来源 System.out.println(source.text()); */ //maybe 更好 Elements source = doc.select("div[class=source]"); System.out.println(source.text()); Elements body = doc.select("div[itemprop=articleBody]"); System.out.println(body.text());
运行一下得到结果:
英媒:美防长将于15日登上航母穿越南海争议水域
2016-04-15 11:46:17
来源:环球网
【环球网报道 记者 韩梅】据英国路透社4月15日报道,美国国防部长卡特将于周五登上美国航母,穿过南海争议水域。报道称,去年11月,卡特也有过类似举动。在此次美菲举行的联合军演中,卡特将登上的“斯坦尼斯号”航母也参与其中。 此前据美联社报道,卡特14日在马尼拉拜会菲律宾总统阿基诺三世,并与菲律宾国防部长加斯明举行双边会议。卡特在会后的记者会上说:“上个月我们在南海展开了联合海事巡逻。”他还表示,在15日的年度肩并肩演习结束后,将派275名美军人员暂时留在菲律宾。此外,5架A-10C雷霆攻击机,以及4架其他型号的战机也将继续留在菲律宾,直到4月底才会撤离。
每个网站的结构不一样,建议多试一个网页,以确保,抓取的标签没错。
相关文章推荐
- javaw.exe 和java.exe的区别
- 字符串转AscII
- Spring+SpringMVC+MyBaties学习笔记(一)环境搭建
- 【持久化框架】SpringMVC+Spring4+Mybatis3集成,开发简单Web项目+源码下载
- Spring3+MyBatis3整合无法输出SQL语句问题的解决
- Java学习-9天
- java静态代理和动态代理
- memcpy,vector,进程线程区别,java垃圾回收
- java爬虫 之 搜狐新闻爬虫(一)
- TTP access control (CORS) 以及 spring 解决方法
- spring初步概念(待逐步梳理)
- 如何限制同一客户端登录的用户数量以及禁止同一用户同时在不同客户端登录
- RxJava 实践
- java使用线程请求访问每次间隔10分钟连续5次,之后停止请求
- java使用线程请求访问每次间隔10分钟连续5次,之后停止请求
- JAVA第五次作业
- Java线程安全 - 线程(3)
- Java日期差计算天数
- 对springMVC的简单理解
- java的输入输出及相关快捷键