您的位置：首页 > 其它

中文文本分类流程

2012-04-12 16:12 183 查看

中文文本分类中使用较多的特征抽取方法包括文档频率DF、互信息MI、信息增益IG和CHI等。

文本分类主要分成建立特征库、分类模型训练和分类测试三个步骤。

1、预处理，包括分词和停用词的移除。

2、选择合适的特征抽取方法，对每个词条进行计算，设定合适的阈值，将特征词低于该阈值的词条移除，构成特征库。

3、在训练和分类模块中，依据特征库对文本进行特征提取，进而将文档表示为特征向量。

4、训练模块生成分类模型，分类模块根据分类模型对测试文本的类别做出测试。

每个特征在一篇文章中的权值计算方法时TFIDF，特征向量中的值即为各特征的TFIDF值。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航