您的位置:首页 > 理论基础 > 计算机网络

文本自动分类方法介绍

2009-08-19 16:09 274 查看
 

目前,主要的文档自动分类算法可以分为三类:

 

1.词匹配法 :  根据文本中与类别中共同出现的词来决定该文本属于哪种类别. 该分类方法对语境不敏感,无法正确处理在不同的上下文环境中某个词的不同含义,分类的准确度也很低.

 

2.基于知识工程的方法: 该方法依赖于知识工程师手工编写大量的的推理规则, 这些规则通常面向具体的领域, 当处于不同领域的分类问题时,需要不同领域的知识工程师编写不同的推理规则, 并且分类质量严重依赖于推理规则的质量, 在实际的分类系统中较少使用基于知识工程的学习法.

 

3.统计学习法: 基本思
4000
路是先搜集一些与待分类的文本属于同一领域的文档作为训练集, 并由专家进行分类, 保证分类的准确性,然后分析这些已经分好类的文档,从中挖掘关键词和类别之间的联系,最后再利用这些学到的知识进行分类, 而不是机械地按词进行匹配. 这种基于统计的经验学习法具有良好的理论基础,简单的实现机制以及较好的分类质量,目前实用的分类系统基本上都是采用这种分类方法.

 

 

 

根据分类的结果不同,基于统计学习法的分类系统又分为:独立二元(Independent Binary)分类系统和m元(m-ary)分类系统. 独立二元分类就是给定一篇文档分类系统对每一个分类都进行判断这篇文档是否属于这个类别, 其结果只有两个, 要么属于,要么不属于. m元分类系统就是给定一篇文档,计算该文档与每个类别的相似度,最后按照相似度对类别进行排序.

 

国外当前流行的文本分类方法有Rocchio法及其变异方法、k近邻法(kNN)、决策树、朴素贝叶斯、贝叶斯网络、支持向量机(SVM)等方法。

 

文档分类算法如图所示:

 

 


 

 

 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  文档 算法 网络