您的位置:首页 > Web前端 > HTML

[Nutch]如何利用HTML页面中meta元素?

2008-04-12 13:45 627 查看
[Nutch]如何利用HTML页面中meta元素?[郑昀]
1:假如说你的站点页面中有这么一句:

你利用Nutch抓取并分析时,如何得到这个meta数值并处理呢?
2:你可以从HtmlParseFilter扩展出一个RobotsParserFilter,用下面的代码得到meta值:
Properties generalMetaTags = metaTags.getGeneralTags();
String robots = generalMetaTags.getProperty("robots");
3:增加这个值到metadata中:
parse.getData().getMetadata().put("robots", robots);
4: robots属性还可以再次从 metadata获取:
String robots2 = parse.getData().get("robots");
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐