您的位置:首页 > 其它

中文文本分类流程

2012-04-12 16:12 183 查看
中文文本分类中使用较多的特征抽取方法包括文档频率DF、互信息MI、信息增益IG和CHI等。



文本分类主要分成建立特征库、分类模型训练和分类测试三个步骤。

1、预处理,包括分词和停用词的移除。

2、选择合适的特征抽取方法,对每个词条进行计算,设定合适的阈值,将特征词低于该阈值的词条移除,构成特征库。

3、在训练和分类模块中,依据特征库对文本进行特征提取,进而将文档表示为特征向量。

4、训练模块生成分类模型,分类模块根据分类模型对测试文本的类别做出测试。

每个特征在一篇文章中的权值计算方法时TFIDF,特征向量中的值即为各特征的TFIDF值。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: