使用Rwordseg进行分词
2014-05-16 01:17
225 查看
1、文本简介:
经爬虫得到的某电商网站某类商品的评论。使用wc进行字数统计:
2、使用Rwordseg进行文本挖掘。
(1)使用R代码:
(2)查看分词时间:
可见,对约135万字的文本进行挖掘需要约20秒。(OS X 10.9, i7, 16G)
3、参考文献
代码中的数据汇总方法使用了Norman Matloff "The Art of R Programming" P134-136的方法。
经爬虫得到的某电商网站某类商品的评论。使用wc进行字数统计:
$wc text.txt 0 121467 4694908
2、使用Rwordseg进行文本挖掘。
(1)使用R代码:
library(Rwordseg) require(Rwordseg) text <- readLines("text.txt") #输入 seg <- unlist(segmentCN(text)) #使用segmentCN进行分词 tag <- table(seg) tbldf <- as.data.frame(tag) freqord <- order(tbldf$Freq, decreasing=TRUE) #数据汇总 #见参考文献 final <- tbldf[freqord,][1:length(tag),] #最终结果 write.table(final, "final.csv", sep=",") #输出
(2)查看分词时间:
system.time(seg <- unlist(segmentCN(text))) user system elapsed 21.074 0.149 20.594
可见,对约135万字的文本进行挖掘需要约20秒。(OS X 10.9, i7, 16G)
3、参考文献
代码中的数据汇总方法使用了Norman Matloff "The Art of R Programming" P134-136的方法。
相关文章推荐
- 使用ictclas4j进行中文分词
- Lucene.Net:使用eaglet的盘古分词进行分词和搜索(转载)
- 64位的R中使用Rwordseg做文本分词遇到的安装问题
- 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
- 使用NLPIR汉语分词系统进行分词
- 使用zend Framework的lucene进行全文检索——中文分词
- 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
- IK 分词器 2012 FF 版本取消了 org.wltea.analyzer.solr.IKTokenizerFactory 类【导致只能使用ik分词器来进行分词,无法使用solr自带的其它过滤方式
- 使用ICTCLAS2015进行分词
- IKAnalyzer使用停用词词典进行分词
- 使用R语言进行中文分词
- Lucene.Net:使用eaglet的盘古分词进行分词和搜索(转载)
- 使用继续完善前人写的文章:使用ICTCLAS JAVA版(ictclas4j)进行中文分词
- Lucene.Net:使用eaglet的盘古分词进行分词和搜索
- 使用IKAnalyzer进行中文分词
- 使用Lucene.NET进行分词、搜索
- 使用C++实现mmseg,对中文句子进行分词
- 使用ICTCLA api进行中文分词实验的过程备忘
- 使用python jieba库进行中文分词
- 使用python 的结巴(jieba)库进行中文分词