【R文本挖掘】中文分词Rwordseg
2016-02-26 08:51
239 查看
下载安装方法:install.packages("Rwordseg",repos = "http://R-Forge.R-project.org")注意在之前要安装好JAVA,并配置后JAVA环境1. 分词操作:(1)segmentCN(strwords)
> segmentCN("你好北京")
[1] "你好" "北京"(2)如果输入参数是字符向量,则返回列表> segmentCN(c("你好北京","今天是个好天气"))[[1]][1] "你好" "北京"[[2]][1] "今天" "是" "个" "好" "天气"(3)returnType参数默认是输出向量或列表,若设置成”tm”,则可以输出tm格式的字符串(4)strwords还可以是某个文本文件的路径,并且可用outfile参数指输出,默认是原路径下。(5)blocklines 表示每次读入的行数,默认是1000行2.词典管理词典支持普通格式的文本词典和搜狗的secl格式的细胞词典。(1) 安装词典installDict(dictpath, dictname,dicttype = c("text", "scel"), load = TRUE)dictname 是自定义词典的名称(英文)dicttype 默认是txtload 表示安装后是否自动加载到内存,默认是TRUE
> segmentCN("真武七截阵和天罡北斗阵哪个厉害")
[1] "真" "武" "七" "截" "阵" "和" "天罡" "北斗" "阵" "哪个" "厉害"
> installDict("C:\\Users\\Administrator\\Desktop\\金庸武功招式.scel","jinyong")
932 words were loaded! ... New dictionary 'jinyong' was installed!安装之后的效果
> segmentCN("真武七截阵和天罡北斗阵哪个厉害")
[1] "真武七截阵" "和" "天罡北斗阵" "哪个" "厉害"(2) listDict() 显示安装的词典(3) uninstallDict() 删除安装的词典(4) 自定义词典默认词典的安装目录是%R_HOME%\library\Rwordseg\dict,只需将自己的词典放到这里即可,后缀为.dic修改之后每次重启都会导入dict目录下的词典,若想立即就生效可使用LoadDict()函数(5)如果这是在内存中临时添加或删除词汇,可以使用insertWord()和deleteWord()函数
相关文章推荐
- 党委会的工作方法[推荐程序员、产品经理仔细看看]
- gulp前端自动化构建工具入门篇
- AngularJS $http service
- Map_Son
- 欢迎使用CSDN-markdown编辑器
- R语言学习笔记 - 1 subset和rbind实现分组求平均
- Targets选项下有Other linker flags的设置
- 总计字段上加格式:如千分位 比较笨拙的一种方法
- Go 消费者和生产者的简单例子
- Go 消费者和生产者的简单例子
- Go 消费者和生产者的简单例子
- 多态
- Eclipse中引用依赖库library失败的原因
- Hibernate properties详解
- SqlServer之游标深入
- echarts地图 json数据 和 后套动态数据加载
- Java 反射机制详解?!!
- 四大域总结
- 20160225模拟
- Spring3 MVC请求参数获取的几种方法