您的位置:首页 > 其它

nutch2.2.1 URLNormalizers 详解

2017-10-24 09:32 169 查看
Java代码  


org.apache.nutch.net.URLNormalizers   

 

url过滤封装类,过滤器有3个实现类分别是:

 

Java代码  


//格式化url将url字符小写转换一次,Perl5正则解析URL FILE。  

org.apache.nutch.net.urlnormalizer.basic.BasicURLNormalizer  

//空方法,不执行任何解析,直接返回url,注:应该是预留接口  

org.apache.nutch.net.urlnormalizer.pass.PassURLNormalizer  

//根据配置文件regex-urlfilter.txt中的网站爬取规则过滤URL,不符合规则的网站不予爬取  

org.apache.nutch.net.urlnormalizer.regex.RegexURLNormalizer  

 

 插件包如下:

urlnormalizer-basic.jar

urlnormalizer-pass.jar

urlnormalizer-regex.jar

三个插件包
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: