您的位置:首页 > 其它

数据挖掘笔记(2)——分类、数值预测

2013-08-26 18:03 183 查看

分类-主要方法

决策树

采用贪心策略以自顶向下的分治法构造决策树。
1. 选择样本集的一个属性作为根节点,为该属性的每个值产生一个分支
2. 将每个分支递归使用其他属性进行划分,仅使用真正到达这个分支的样本
3. 如果在一个节点上的所有样本都有相同的类别,即停止该部分树的扩展

基本问题

1. 选择属性的顺序
ID3 Information Galm 迭代的二分器
标准:信息增益,哪个加入的信息多(熵的减少)
通过特征划分数据,使用特征来建立模型,贪心选择哪个特征根据该划分产生的信息量。
C4.5 Gain Ratio ID3的后继
CART Gial Index 分类与回归树 使用gini选择属性
2. 什么时候停止
停止条件
产生完全树后进行剪枝

优点

1. 结构建立原理上可信,容易让人理解

遗传算法:

进化计算:模拟生物中的进化,解决优化问题,包括进化策略、进化规划、遗传策略

原则:

进化发生在染色体级别:有机体不会进化,染色体重组变化
倾向于更多地复制更高适应度的有机体
种群保持多样性

解决问题:

解空间太大
不要求必须最优解
求解方法不完全知道
需要同时优化多个参数
难用数学形式描述

优势:

大范围搜索可行解的有效方法
并行计算
能自适应问题的变化: 对不同客户提供个性化服务

步骤:

染色体编码
以某种方式包含关于其表示的解的信息,如使用二元向量
初始化种群
随机生成给定长度的染色体(二进制编码)种群
适应度函数的设计
对种群进行评估
选择(交替)
基于前一代迭代种群,选择适应度高的
交叉
对新的子代的染色体从某部分断开,进行交换
变异
染色体某些位置上产生突变,可防止所有解都落入局部最优解,在选择和交叉的基础上(类似于复制时的误差)

贝叶斯算法:

利用贝叶斯公式将假设信息与样本信息综合,得到预测信息
公式: P(c|x)=(P(x|c)P(c))/P(x)。 P(c|x)=P(c*x)/P(x)
令C为假设,X为训练数据,P(C)和P(X)为相应概率。 P(c|x)是给定训练数据存在时,假设C存在的概率(预测概率),如给定数据时,预测股票涨的概率
处理离散数据

朴素贝叶斯

使用公式预测那种假设发生的概率高。 假设属性独立(很多情况下不成立)

改进:

引入属性选择方法(特征选择)
放宽条件独立假设(贝叶斯网络、圆模型)

贝叶斯网络

扩展线性模型:

神经元模型(Neural Network): 模拟神经元,有很大的并行性,处理线性可分问题 ,类似于线性方程,用的不多
激活函数: 根据输入得出输出,有 阀值、分段线性、Sigmoal(带参数,用的较多,因为连续可导)
感知器网络:单层网络,模型是一条直线
前馈性网络:多层的,前一层的输出是后一层的输入,反向不行,用于模式识别,模型是任意线
反馈性网络:多层的,后一层可作为前一层的输入,解决优化论
缺点:训练比较复杂;层数和每层的个数不确定,完全依靠经验;结论可解释性差,权值中的知识难以解释; 标准BP算法只能找到局部最小值
优点:可处理非线性数据,离散、连续和向量数据;适用于并行计算;算法鲁棒(不受影响),抗噪声数据

径向基函数网络 RBF Network

和神经元网络的不同: 激活函数是RBF函数,在概率中符合高斯分布。 只有三层,隐含层中激活函数可以各不相同。

支持向量机: Support Vector Machines

基于小样本;连续数值; 解决分类问题很好
通过非线性变化进行维数增加,使得数据线性可分

Meta 学习(系综方法)

把多个分类器组合在一起构成一个综合的分类器
融合策略:
叠加归纳法: 多个分类器的结构进行综合,并行(权重、投票)
连机归纳法: 每个分类器对输入有个判断,同时考虑上个分类器传给它的判断,综合输出,串行
综合策略:
同种组合: 如不同的决策树组合
不同种组合(可操作性差,缺乏可解释性): 如决策树和贝叶斯的组合
学习效果好不好,要加大每个学习器的差异性
挖掘算法和数据集合 只有和特定问题相关 才能决定好坏

SVM和图像分类

场景:

应用在手写体识别,人脸识别,遥感图形分类, 文本分类研究

基本思想:

基于统计学习理论的结构风险最小化原则
最大分界间隔思想
线性不可分:
基于核的方法,向高维空间的非线性映射
引入松弛技术和惩罚因子

线性判别函数:

对点进行判断

优点:

坚实的数学基础; 较好地解决小样本; 解决非线性、局部极小值

缺点:

对于大样本运算量大; 改进: 块算法,分解算法,增量与在线训练算法

图像检索:

图找图, 从图中提取特征向量,利用近似匹配技术,找到相应图片;
将检索结果作为训练样本,产生分类器,利用分类器对图像库中图像进行分类,对于郑磊求出每幅图像与分类面的距离,对于距离越远的图像越接近查询样例,按距离从大到小排序
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: