用R语言进行中文分词
2016-06-13 21:58
169 查看
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_35165486/article/details/51660955
下载rJava及Rwordseg包,解压至R语言library目录下
library(rJava);
library(Rwordseg);
test1=read.csv("E:\\test\\test.csv") #读取文件
head(test1) #查看数据前几行
test1=test1[test1!=" "];
test1=gsub(pattern="http:[a-zA-Z\\/\\.0-9]+","",teat1); #去除URL
res=gsub(pattern="[我|你|的|是|了]","",test1); #去除特殊词
write.csv(test1,file="E:\\test1\\test1.txt",row.names=FALSE) #输出去除后的文件
words=unlist(lapply(X=test1,FUN=segmentCN)); #分词
word=lapply(X=words,FUN=strsplit," "); #频数统计
v=table(unlist(word));
v=rev(sort(v)); #降序排序
d=data.frame(word=names(v),freq=v);
write.csv(d,file="E:\\test1\\test2.txt",row.names=FALSE) #输出分词后的文件
installDict("D:\\词库.scel", dictname="place") #添加词库
相关文章推荐
- 使用R语言 4秒对10万行qq群聊天记录进行基本的清洗整理
- 使用R语言进行协整关系检验
- R语言对高频交易订单流进行建模分析 1
- 用正向最大匹配法进行中文分词
- R语言:利用caret包中的dummyVars函数进行虚拟变量处理
- 利用R语言进行交互数据可视化
- 用R语言对高维数据进行降维聚类展示
- R语言对爬取的天气数据进行整理
- 用R语言对JPG/JPEG图片进行背景透明处理
- R语言进行方差分析
- R语言对地形数据进行三维可视化
- R语言对高频交易订单流进行建模分析 2
- 【R语言进行数据挖掘】回归分析
- 用R语言进行文本挖掘和主题建模
- 用R语言进行数据分析
- R语言进行中文分词和聚类
- 使用NLPIR汉语分词工具进行中文分词(java语言)
- 使用R语言进行一元回归
- 【R语言进行数据挖掘】决策树和随机森林
- R语言进行数据预处理wranging