您的位置:首页 > 其它

使用Rwordseg进行分词

2014-05-16 01:17 225 查看
1、文本简介:

经爬虫得到的某电商网站某类商品的评论。使用wc进行字数统计:

$wc text.txt
0  121467 4694908


2、使用Rwordseg进行文本挖掘。

(1)使用R代码:

library(Rwordseg)
require(Rwordseg)

text <- readLines("text.txt") #输入
seg <- unlist(segmentCN(text)) #使用segmentCN进行分词

tag <- table(seg)
tbldf <- as.data.frame(tag)
freqord <- order(tbldf$Freq, decreasing=TRUE) #数据汇总 #见参考文献
final <- tbldf[freqord,][1:length(tag),] #最终结果

write.table(final, "final.csv", sep=",") #输出


(2)查看分词时间:

system.time(seg <- unlist(segmentCN(text)))
user  system  elapsed
21.074   0.149  20.594


可见,对约135万字的文本进行挖掘需要约20秒。(OS X 10.9, i7, 16G)

3、参考文献

代码中的数据汇总方法使用了Norman Matloff "The Art of R Programming" P134-136的方法。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  R 文本挖掘 Rwordseg