[Nutch]如何利用HTML页面中meta元素?
2008-04-12 13:48
363 查看
[Nutch]如何利用HTML页面中meta元素?[郑昀]
1:假如说你的站点页面中有这么一句:
你利用Nutch抓取并分析时,如何得到这个meta数值并处理呢?
2:你可以从HtmlParseFilter扩展出一个RobotsParserFilter,用下面的代码得到meta值:
Properties generalMetaTags = metaTags.getGeneralTags();
String robots = generalMetaTags.getProperty("robots");
3:增加这个值到metadata中:
parse.getData().getMetadata().put("robots", robots);
4: robots属性还可以再次从 metadata获取:
String robots2 = parse.getData().get("robots");
1:假如说你的站点页面中有这么一句:
你利用Nutch抓取并分析时,如何得到这个meta数值并处理呢?
2:你可以从HtmlParseFilter扩展出一个RobotsParserFilter,用下面的代码得到meta值:
Properties generalMetaTags = metaTags.getGeneralTags();
String robots = generalMetaTags.getProperty("robots");
3:增加这个值到metadata中:
parse.getData().getMetadata().put("robots", robots);
4: robots属性还可以再次从 metadata获取:
String robots2 = parse.getData().get("robots");
相关文章推荐
- [Nutch]如何利用HTML页面中meta元素?
- [Nutch]如何利用HTML页面中meta元素?
- 网站上的页面元素 Meta标签-关键字,描述,机器人和辅助功能标签页标题内容-定位整个副本的关键字的内容和支付链接-连接结构,ALT标签,文本链接的话和标题,页面上的各主要部分的关键字密度,HTML有
- 如何自动在html页面加载时动态改变div等元素的高度和宽度
- 如何盖住html页面上的SELECT(下拉框)元素
- 如何盖住html页面上的SELECT(下拉框)元素
- 如何利用ASP.NET技术动态生成HTML页面
- 【教程】如何利用sourceforge Google Code的SVN显示Html页面
- 如何查看以XML为后缀的HTML代码——DHTML作业中获得页面元素的小方法
- HTML、js:如何利用Location对象的常用属性和方法重新加载、刷新页面
- HTML网页打印去掉页眉页脚,以及如何控制不想打印出的页面元素【梨城在线】
- 利用HTML 服务器控件设置使用MasterPage的页面的HTML 元素
- JavaScript网站设计实践(四)编写about.html页面,利用JavaScript和DOM,选择性的显示和隐藏DIV元素
- FLASH如何盖住html页面上的Select(下拉框)元素
- 如何利用html中元素
- Play FrameWork中scala.html页面如何显示带有html标签元素的字符串信息
- 「提高」如何利用ASP.NET技术动态生成HTML页面
- JavaScript网站设计实践(四)编写about.html页面,利用JavaScript和DOM,选择性的显示和隐藏DIV元素
- 如何利用Google Code的SVN显示Html页面
- 如何利用jquery从父页面取到iframe里面的元素