nutch2.2.1 URLNormalizers 详解
2017-10-24 09:32
169 查看
Java代码
org.apache.nutch.net.URLNormalizers
url过滤封装类,过滤器有3个实现类分别是:
Java代码
//格式化url将url字符小写转换一次,Perl5正则解析URL FILE。
org.apache.nutch.net.urlnormalizer.basic.BasicURLNormalizer
//空方法,不执行任何解析,直接返回url,注:应该是预留接口
org.apache.nutch.net.urlnormalizer.pass.PassURLNormalizer
//根据配置文件regex-urlfilter.txt中的网站爬取规则过滤URL,不符合规则的网站不予爬取
org.apache.nutch.net.urlnormalizer.regex.RegexURLNormalizer
插件包如下:
urlnormalizer-basic.jar
urlnormalizer-pass.jar
urlnormalizer-regex.jar
三个插件包
org.apache.nutch.net.URLNormalizers
url过滤封装类,过滤器有3个实现类分别是:
Java代码
//格式化url将url字符小写转换一次,Perl5正则解析URL FILE。
org.apache.nutch.net.urlnormalizer.basic.BasicURLNormalizer
//空方法,不执行任何解析,直接返回url,注:应该是预留接口
org.apache.nutch.net.urlnormalizer.pass.PassURLNormalizer
//根据配置文件regex-urlfilter.txt中的网站爬取规则过滤URL,不符合规则的网站不予爬取
org.apache.nutch.net.urlnormalizer.regex.RegexURLNormalizer
插件包如下:
urlnormalizer-basic.jar
urlnormalizer-pass.jar
urlnormalizer-regex.jar
三个插件包
相关文章推荐
- Nutch-2.2.1学习之九Nutch过滤URL实践
- Nutch-2.2.1----Nutch过滤URL实践
- urlscan.ini中文详解注释
- URL重写:Rewirte模块原理详解(手术性文章)
- URL地址参数详解
- nutch2.2.1+mysql抓取数据
- Nutch2.2.1配置mysql存储
- nutch 0.7 plug-ins 详解
- HttpURLConnection用法详解
- 学习笔记--JDK中的URLConnection参数详解
- Nutch2.2.1在MyEclipse中的安装(window7环境)
- JDK中的URLConnection参数详解
- url-pattern详解
- Python 中urls.py:URL dispatcher(路由配置文件)详解
- Nutch2.2.1的配置(使用MySQL作为数据存储)
- Nutch2.2.1抓取错误——java.sql.BatchUpdateException: Incorrect string value: '\xF2\xA3\xAC\xB7\xEF\xBF.
- HttpURLConnection用法详解
- HttpURLConnection用法详解
- 详解HTTP--URI和URL(二)
- Request.UrlReferrer详解