您的位置:首页 > 编程语言 > Java开发

java爬虫 之 搜狐新闻爬虫(二)

2016-04-15 18:40 369 查看
我们可以发现搜狐新闻的新闻页都是有规律的比如:

http://news.sohu.com/20160415/n444266195.shtml

在浏览器中右键检查元素



可以找到锁定文章标题,时间,来源的标签

那么经过分析确定标签可以得到下面的代码:

Elements h = doc.select("h1[itemprop]");//标题

System.out.println(h.text());

Elements time = doc.select("div.time");//时间

System.out.println(time.text());
/*
Element source = doc.select("span[itemprop=name]").first();//来源

System.out.println(source.text());
*/
//maybe 更好
Elements source = doc.select("div[class=source]");

System.out.println(source.text());

Elements body = doc.select("div[itemprop=articleBody]");

System.out.println(body.text());


运行一下得到结果:

英媒:美防长将于15日登上航母穿越南海争议水域

2016-04-15 11:46:17

来源:环球网

  【环球网报道 记者 韩梅】据英国路透社4月15日报道,美国国防部长卡特将于周五登上美国航母,穿过南海争议水域。报道称,去年11月,卡特也有过类似举动。在此次美菲举行的联合军演中,卡特将登上的“斯坦尼斯号”航母也参与其中。   此前据美联社报道,卡特14日在马尼拉拜会菲律宾总统阿基诺三世,并与菲律宾国防部长加斯明举行双边会议。卡特在会后的记者会上说:“上个月我们在南海展开了联合海事巡逻。”他还表示,在15日的年度肩并肩演习结束后,将派275名美军人员暂时留在菲律宾。此外,5架A-10C雷霆攻击机,以及4架其他型号的战机也将继续留在菲律宾,直到4月底才会撤离。

每个网站的结构不一样,建议多试一个网页,以确保,抓取的标签没错。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: