NLPIR分词工具的使用(java环境下)
2016-02-28 09:35
627 查看
一、NLPIR是什么?
NLPIR(汉语分词系统)由中科大张华平博士团队开发,主要功能包括:中文分词,词性标注,命名实体识别,用户词典功能,详情见官网:http://ictclas.nlpir.org/。
二、java环境下的使用:
主要参考了如下资料:http://www.360doc.com/content/14/0926/15/19424404_412519063.shtml
下面是个人的使用方法,仅供参考
1、下载NLPIR工具包,链接如下:http://ictclas.nlpir.org/newsdownloads?DocId=389
工具包中主要包含了以下内容:(待补充)
2、NLPIR是在c、c++环境下的,所以在java环境下,得下载其提供的java接口, 所以我又下载了 windows 下64位的JNI 压缩包(根据自己机器环境下载):http://ictclas.nlpir.org/newsdownloads?DocId=353
所以现在有两个文件包:NLPIR工具包,JNI接口包。
3、现在可以开始构建自己的项目了:
(1)创建一个java 项目,最后形成的目录如下图:
其中:bai包中的是自己写的测试程序
Kevin.zhang是64位JNI压缩包中的内容,拷贝到自己创建的java项目中
file:为自己创建的目录,Data文件是来自NLPIR工具包
test:来自NLPIR工具包
NLPIR.dll 来自NLPIR工具包lib 目录中
NLPIR_JNI.dll来自JNI接口包
4、编写分词程序
代码如下:
NLPIR(汉语分词系统)由中科大张华平博士团队开发,主要功能包括:中文分词,词性标注,命名实体识别,用户词典功能,详情见官网:http://ictclas.nlpir.org/。
二、java环境下的使用:
主要参考了如下资料:http://www.360doc.com/content/14/0926/15/19424404_412519063.shtml
下面是个人的使用方法,仅供参考
1、下载NLPIR工具包,链接如下:http://ictclas.nlpir.org/newsdownloads?DocId=389
工具包中主要包含了以下内容:(待补充)
2、NLPIR是在c、c++环境下的,所以在java环境下,得下载其提供的java接口, 所以我又下载了 windows 下64位的JNI 压缩包(根据自己机器环境下载):http://ictclas.nlpir.org/newsdownloads?DocId=353
所以现在有两个文件包:NLPIR工具包,JNI接口包。
3、现在可以开始构建自己的项目了:
(1)创建一个java 项目,最后形成的目录如下图:
其中:bai包中的是自己写的测试程序
Kevin.zhang是64位JNI压缩包中的内容,拷贝到自己创建的java项目中
file:为自己创建的目录,Data文件是来自NLPIR工具包
test:来自NLPIR工具包
NLPIR.dll 来自NLPIR工具包lib 目录中
NLPIR_JNI.dll来自JNI接口包
4、编写分词程序
代码如下:
package bai; import kevin.zhang.NLPIR; public class nlpir_test { public static void main(String args[]) { try { test(); } catch(Exception e) { e.printStackTrace(); } } static void test()throws Exception { // TODO Auto-generated method stub //这里就是("./file/")不用修改 NLPIR nlpir=new NLPIR(); if(!NLPIR.NLPIR_Init("./file/".getBytes("UTF-8"),1)) { System.out.println("NLPIR初始化失败"); return ; } //句子分词测试 String temp="每天的日报都记得要发送, 以配合经理掌握项目的进度情况"; byte[] resBytes=nlpir.NLPIR_ParagraphProcess(temp.getBytes("UTF-8"),0); System.out.println("分词结果: "+new String(resBytes,"UTF-8")); //文件分词测试 String utf8File = "E:/wbjddata/user_product_similarity/product_vector_pro.txt"; String utf8FileResult = "E:/wbjddata/user_product_similarity/product_vector_pro_seg_result.txt"; nlpir.NLPIR_FileProcess(utf8File.getBytes(), utf8FileResult.getBytes(), 0); // 退出, 释放资源 NLPIR.NLPIR_Exit(); //nlpir.NLPIR_FileProcess,nlpir.NLPIR_ParagraphProcess中第二个参数0,表示只显示分词,不显示词性的标注 } }
相关文章推荐
- 【leetcode】【16】3Sum Closest
- java 文件
- Java多线程共享变量控制
- Java编程中字节流与字符流IO操作示例
- Java关键字合集
- java设计模式之策略模式
- JVM学习(4)——全面总结Java的GC算法和回收机制
- java打印可对齐的任意层数的杨辉三角形
- android imageView 获取指定名字的图片、从MyEclipse服务器下载图片
- spring IOC加载流程
- Java调用ffmpeg进行视频转码
- java并发包concurrent翻译及源码分析之:ReadWriteLock
- java38.Socket通信------使用ServerSocket建立聊天服务器---2
- 基于Eclipse的Android开发(一)——创建第一个Android项目
- spring常用事务配置
- 远程debug调试(eclipse)之openstack windows
- pycharm常用设置(keymap设置及eclipse常用快捷键总结)
- JVM:浅析Java虚拟机结构与机制
- spring加载资源文件中classpath*与classpath的区别
- 001Java-IO流的关系