您的位置：首页 > 其它

使用Rwordseg进行分词

2014-05-16 01:17 225 查看

1、文本简介：

经爬虫得到的某电商网站某类商品的评论。使用wc进行字数统计：

$wc text.txt
0  121467 4694908

2、使用Rwordseg进行文本挖掘。

（1）使用R代码：

library(Rwordseg)
require(Rwordseg)

text <- readLines("text.txt") #输入
seg <- unlist(segmentCN(text)) #使用segmentCN进行分词

tag <- table(seg)
tbldf <- as.data.frame(tag)
freqord <- order(tbldf$Freq, decreasing=TRUE) #数据汇总 #见参考文献
final <- tbldf[freqord,][1:length(tag),] #最终结果

write.table(final, "final.csv", sep=",") #输出

（2）查看分词时间：

system.time(seg <- unlist(segmentCN(text)))
user  system  elapsed
21.074   0.149  20.594

可见，对约135万字的文本进行挖掘需要约20秒。（OS X 10.9, i7, 16G）

3、参考文献

代码中的数据汇总方法使用了Norman Matloff "The Art of R Programming" P134-136的方法。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： R 文本挖掘 Rwordseg

相关文章推荐

新的分享

章节导航