中文文本分类流程
2012-04-12 16:12
183 查看
中文文本分类中使用较多的特征抽取方法包括文档频率DF、互信息MI、信息增益IG和CHI等。
文本分类主要分成建立特征库、分类模型训练和分类测试三个步骤。
1、预处理,包括分词和停用词的移除。
2、选择合适的特征抽取方法,对每个词条进行计算,设定合适的阈值,将特征词低于该阈值的词条移除,构成特征库。
3、在训练和分类模块中,依据特征库对文本进行特征提取,进而将文档表示为特征向量。
4、训练模块生成分类模型,分类模块根据分类模型对测试文本的类别做出测试。
每个特征在一篇文章中的权值计算方法时TFIDF,特征向量中的值即为各特征的TFIDF值。
文本分类主要分成建立特征库、分类模型训练和分类测试三个步骤。
1、预处理,包括分词和停用词的移除。
2、选择合适的特征抽取方法,对每个词条进行计算,设定合适的阈值,将特征词低于该阈值的词条移除,构成特征库。
3、在训练和分类模块中,依据特征库对文本进行特征提取,进而将文档表示为特征向量。
4、训练模块生成分类模型,分类模块根据分类模型对测试文本的类别做出测试。
每个特征在一篇文章中的权值计算方法时TFIDF,特征向量中的值即为各特征的TFIDF值。
相关文章推荐
- 新闻上的文本分类:机器学习大乱斗 王岳王院长 王岳王院长 5 个月前 目标 从头开始实践中文短文本分类,记录一下实验流程与遇到的坑 运用多种机器学习(深度学习 + 传统机器学习)方法比较短文本分类处
- 基于SVM的中文文本分类方法
- Spark2.0 特征提取、转换、选择之二:特征选择、文本处理,以中文自然语言处理(情感分类为例)
- 【NLP】TensorFlow实现CNN用于中文文本分类
- 个基于概念的中文文本分类模型
- 自然语言处理课程作业 中文文本情感分类
- 评测任务实战:中文文本分类技术实践与分享 - PaperWeekly 第49期
- 利用人工智能(Magpie开源库)给一段中文的文本内容进行分类打标签
- 中文文本挖掘预处理流程
- 中文文本挖掘预处理流程总结
- 如何用Python和机器学习训练中文文本情感分类模型?
- 一个小型的中文文本分类系统(项目链接文末)——《ML算法原理和实践》学习笔记
- CNN在中文文本分类的应用
- 基于svm的中文文本自动分类系统
- 基于svm的中文文本自动分类系统
- keras实现aspect level中文文本情感分类-源自EMNLP2016
- CNN在中文文本分类的应用
- cnn、rnn实现中文文本分类(基于tensorflow)
- Spark MLlib实现的中文文本分类–Naive Bayes
- 中文文本分类--TF-IDF--朴素贝叶斯-01