Nutch-1.2添加中文分词ICTCLAS以及常见问题解答
2014-10-26 20:30
477 查看
本文以windows系统为例
工具准备tomcat、eclipse、javac、ant、cgywin、Nutch-1.2、(NLPIR.dll、Data文件夹)---ICTCLAS中的文件
本文详细介绍Nutch-1.2中文分词在三个平台中的应用——Eclipse、Cygwin、tomcat
ok now begin。。。。。
1、Eclipse平台
首先请参照网络资料将Nutch-1.2中代码放入一个新建的java project。好了,假设你已经成功导入源代码,那么现在我们就来添加ICTCLAS。下图为nutch-1.2添加了ICTCLAS后的工程目录,共下文分析参考。
step 1: 将NLPIR.dll和data文件夹方法java工程根目录,新建一个类加载dll文件(加载方法请查找相关网络资料)
step 2:修改nutch代码
/src/java/org/apache/nutch/analysis下的 NutchAnalysis.jj
| <SIGRAM: (<CJK>)+ > //修改后的部分,源文件为 | <SIGRAM: <CJK> >
让他支持中文分词
step 3:使用 javacc 编译,生成代码
javacc NutchAnalysis.jj,生成7个java文件,覆盖原始文件
step 4: 修改NutchDocumentTokenizer.java 中的代码
根据编译器提示修改一些捕获异常的代码。
step 5:以上修改完成以后nutch就应该能支持中文分词了。测试一下:
执行org.apache.nutch.analysis.NutchAnalysis测试一下分词效果,如下
输入:
结果:
step 6:爬虫简历索引
如何修改nutch配置文件进行爬虫请参考其他网络资料
运行NutchBean.java,其中参数配置如图所示:
参数具体的含义相信大家都应该懂,这里不再赘述。执行结果会形成一个爬虫文件夹,文件夹结构如图所示:
各个文件的含义请查看相关文章。
2、cgywin平台
在cgywin中运行其实本质和eclipse中一样,将上面改好的文件复制和替换进入nutch目录文件夹下,运用ant工具将改好的代码编译即可。
调出windows命令窗口,CMD进入命令界面,cd 进入nutch-1.2文件目录,输入ant命令即可形成3个文件(build文件夹下)——nutch-1.2.jar、nutch-1.2.job、nutch-1.2.war,将前两者替换nutch中原有文件,nutch-1.2.war用于tomcat。
这里面在进行ant编译时可会会出现报错,应该会有一个ParseException的错误,按照提示修改即可。
在进行cgywin命令时可能你会发现无法输入和显示中文,具体办法请看我的另一篇文章《cgywin下中文输入和显示》。
3、tomcat平台
将上面形成的nutch-1.2.war放入tomcat》webapps目录下,将data和NLPIR.dll放入tomcat根目录下(这里为什么放入这里而不是工程web-inf中还请大神指点)
可能会有问题,在搜索框中输入”中国“时,跳转页面时空页面,查看日志文件显示java.lang.StringIndexOutOfBoundsException: String index out of range: 解决办法如下:
在tomcat中部署的nutch目录下进入WEB-INF\classes
找到nutch-site.xml 在这里添加如下代码即http://www.nlpir.org/可。
<property>
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(text|html|js)|analysis-(zh)|index-basic|query-(basic|site|url)|summary-lucene|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
</property>
ok 这样基本就配置完了。。。。。上面有些地方说的比较粗略,可能也有些错误,没明白的地方欢迎留言,错误的地方欢迎指正。
转载请注明出处。
相关链接:http://www.nlpir.org / 可在这里下载最新ICTCLAS
工具准备tomcat、eclipse、javac、ant、cgywin、Nutch-1.2、(NLPIR.dll、Data文件夹)---ICTCLAS中的文件
本文详细介绍Nutch-1.2中文分词在三个平台中的应用——Eclipse、Cygwin、tomcat
ok now begin。。。。。
1、Eclipse平台
首先请参照网络资料将Nutch-1.2中代码放入一个新建的java project。好了,假设你已经成功导入源代码,那么现在我们就来添加ICTCLAS。下图为nutch-1.2添加了ICTCLAS后的工程目录,共下文分析参考。
step 1: 将NLPIR.dll和data文件夹方法java工程根目录,新建一个类加载dll文件(加载方法请查找相关网络资料)
step 2:修改nutch代码
/src/java/org/apache/nutch/analysis下的 NutchAnalysis.jj
| <SIGRAM: (<CJK>)+ > //修改后的部分,源文件为 | <SIGRAM: <CJK> >
让他支持中文分词
step 3:使用 javacc 编译,生成代码
javacc NutchAnalysis.jj,生成7个java文件,覆盖原始文件
step 4: 修改NutchDocumentTokenizer.java 中的代码
private static Reader myreader = null; public NutchDocumentTokenizer(Reader reader) { super(process(reader)); tokenManager = new NutchAnalysisTokenManager(myreader); this.termAtt = addAttribute(TermAttribute.class); this.offsetAtt = addAttribute(OffsetAttribute.class); this.posIncrAtt = addAttribute(PositionIncrementAttribute.class); this.typeAtt = addAttribute(TypeAttribute.class); } public static Reader process(Reader reader){ BufferedReader in = new BufferedReader(reader); String line=""; String temp=null; try{ while((temp =in.readLine())!=null){ line += temp.replaceAll("/", ""); System.out.println(line); } }catch(Exception e){ System.out.println(e); } try{ if(line!=null && !line.equals("")){ NlpirMethod.Nlpir_init(); line=NlpirMethod.NLPIR_ParagraphProcess(line, 0); myreader = new StringReader(line); } }catch(Exception e){ } return myreader; }
根据编译器提示修改一些捕获异常的代码。
step 5:以上修改完成以后nutch就应该能支持中文分词了。测试一下:
执行org.apache.nutch.analysis.NutchAnalysis测试一下分词效果,如下
输入:
结果:
step 6:爬虫简历索引
如何修改nutch配置文件进行爬虫请参考其他网络资料
运行NutchBean.java,其中参数配置如图所示:
参数具体的含义相信大家都应该懂,这里不再赘述。执行结果会形成一个爬虫文件夹,文件夹结构如图所示:
各个文件的含义请查看相关文章。
2、cgywin平台
在cgywin中运行其实本质和eclipse中一样,将上面改好的文件复制和替换进入nutch目录文件夹下,运用ant工具将改好的代码编译即可。
调出windows命令窗口,CMD进入命令界面,cd 进入nutch-1.2文件目录,输入ant命令即可形成3个文件(build文件夹下)——nutch-1.2.jar、nutch-1.2.job、nutch-1.2.war,将前两者替换nutch中原有文件,nutch-1.2.war用于tomcat。
这里面在进行ant编译时可会会出现报错,应该会有一个ParseException的错误,按照提示修改即可。
在进行cgywin命令时可能你会发现无法输入和显示中文,具体办法请看我的另一篇文章《cgywin下中文输入和显示》。
3、tomcat平台
将上面形成的nutch-1.2.war放入tomcat》webapps目录下,将data和NLPIR.dll放入tomcat根目录下(这里为什么放入这里而不是工程web-inf中还请大神指点)
可能会有问题,在搜索框中输入”中国“时,跳转页面时空页面,查看日志文件显示java.lang.StringIndexOutOfBoundsException: String index out of range: 解决办法如下:
在tomcat中部署的nutch目录下进入WEB-INF\classes
找到nutch-site.xml 在这里添加如下代码即http://www.nlpir.org/可。
<property>
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(text|html|js)|analysis-(zh)|index-basic|query-(basic|site|url)|summary-lucene|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
</property>
ok 这样基本就配置完了。。。。。上面有些地方说的比较粗略,可能也有些错误,没明白的地方欢迎留言,错误的地方欢迎指正。
转载请注明出处。
相关链接:http://www.nlpir.org / 可在这里下载最新ICTCLAS
相关文章推荐
- Nutch1.2 添加IKAnalyzer中文分词
- Nutch1.2 添加IKAnalyzer中文分词
- WinXP+cygwin+eclipse配置nutch-1.2,添加IKAnalyzer中文分词
- Ubuntu环境下Nutch1.2 二次开发(添加中文分词)
- Nutch1.2增加IKAnalyzer中文分词
- Nutch成功添加中文分词
- ictclas,ansj,结巴分词,StanfordNLP中文分词以及所用词性标注集
- nutch-1.0添加JE中文分词-修改源码…
- 为Nutch 1.0添加JE中文分词
- nutch添加imdict-chinese-analyzer实现中文分词
- ictclas,ansj,结巴分词,StanfordNLP中文分词以及所用词性标注集
- Nutch 1.0添加JE中文分词 要修改的几处地方说明
- 为nutch 添加中文分词插件
- Nutch-0.9加入ICTCLAS 支持中文分词等(转)
- 为nutch 添加中文分词插件
- Lucene下引入ICTCLAS进行中文分词的实现方法
- 全文检索4(关于中文分词ICTCLAS分词系统)
- LabVIEW初学者常见问题以及解答(下)
- 在DNN中集成ICTCLAS中文分词功能
- Linux下的中文显示和支持常见问题解答