您的位置:首页 > 其它

用R语言进行中文分词

2016-06-13 21:58 169 查看
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_35165486/article/details/51660955

下载rJava及Rwordseg包,解压至R语言library目录下

library(rJava);

library(Rwordseg);

test1=read.csv("E:\\test\\test.csv")          #读取文件

head(test1)     #查看数据前几行

test1=test1[test1!=" "];           

test1=gsub(pattern="http:[a-zA-Z\\/\\.0-9]+","",teat1);        #去除URL

res=gsub(pattern="[我|你|的|是|了]","",test1);       #去除特殊词

write.csv(test1,file="E:\\test1\\test1.txt",row.names=FALSE)      #输出去除后的文件

words=unlist(lapply(X=test1,FUN=segmentCN));        #分词 

word=lapply(X=words,FUN=strsplit," ");        #频数统计

v=table(unlist(word));

v=rev(sort(v));       #降序排序

d=data.frame(word=names(v),freq=v);

write.csv(d,file="E:\\test1\\test2.txt",row.names=FALSE)      #输出分词后的文件

installDict("D:\\词库.scel", dictname="place")        #添加词库

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: