您的位置：首页 > 其它

用R语言进行中文分词

2016-06-13 21:58 169 查看

下载rJava及Rwordseg包，解压至R语言library目录下

library(rJava);

library(Rwordseg);

test1=read.csv("E:\\test\\test.csv") #读取文件

head(test1) #查看数据前几行

test1=test1[test1!=" "];

test1=gsub(pattern="http:[a-zA-Z\\/\\.0-9]+","",teat1); #去除URL

res=gsub(pattern="[我|你|的|是|了]","",test1); #去除特殊词

write.csv(test1,file="E:\\test1\\test1.txt",row.names=FALSE) #输出去除后的文件

words=unlist(lapply(X=test1,FUN=segmentCN)); #分词

word=lapply(X=words,FUN=strsplit," "); #频数统计

v=table(unlist(word));

v=rev(sort(v)); #降序排序

d=data.frame(word=names(v),freq=v);

write.csv(d,file="E:\\test1\\test2.txt",row.names=FALSE) #输出分词后的文件

installDict("D:\\词库.scel", dictname="place") #添加词库

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航