数据挖掘笔记(2)——分类、数值预测
2013-08-26 18:03
183 查看
分类-主要方法
决策树
采用贪心策略以自顶向下的分治法构造决策树。1. 选择样本集的一个属性作为根节点,为该属性的每个值产生一个分支
2. 将每个分支递归使用其他属性进行划分,仅使用真正到达这个分支的样本
3. 如果在一个节点上的所有样本都有相同的类别,即停止该部分树的扩展
基本问题
1. 选择属性的顺序ID3 Information Galm 迭代的二分器
标准:信息增益,哪个加入的信息多(熵的减少)
通过特征划分数据,使用特征来建立模型,贪心选择哪个特征根据该划分产生的信息量。
C4.5 Gain Ratio ID3的后继
CART Gial Index 分类与回归树 使用gini选择属性
2. 什么时候停止
停止条件
产生完全树后进行剪枝
优点
1. 结构建立原理上可信,容易让人理解遗传算法:
进化计算:模拟生物中的进化,解决优化问题,包括进化策略、进化规划、遗传策略原则:
进化发生在染色体级别:有机体不会进化,染色体重组变化倾向于更多地复制更高适应度的有机体
种群保持多样性
解决问题:
解空间太大不要求必须最优解
求解方法不完全知道
需要同时优化多个参数
难用数学形式描述
优势:
大范围搜索可行解的有效方法并行计算
能自适应问题的变化: 对不同客户提供个性化服务
步骤:
染色体编码以某种方式包含关于其表示的解的信息,如使用二元向量
初始化种群
随机生成给定长度的染色体(二进制编码)种群
适应度函数的设计
对种群进行评估
选择(交替)
基于前一代迭代种群,选择适应度高的
交叉
对新的子代的染色体从某部分断开,进行交换
变异
染色体某些位置上产生突变,可防止所有解都落入局部最优解,在选择和交叉的基础上(类似于复制时的误差)
贝叶斯算法:
利用贝叶斯公式将假设信息与样本信息综合,得到预测信息公式: P(c|x)=(P(x|c)P(c))/P(x)。 P(c|x)=P(c*x)/P(x)
令C为假设,X为训练数据,P(C)和P(X)为相应概率。 P(c|x)是给定训练数据存在时,假设C存在的概率(预测概率),如给定数据时,预测股票涨的概率
处理离散数据
朴素贝叶斯
使用公式预测那种假设发生的概率高。 假设属性独立(很多情况下不成立)改进:
引入属性选择方法(特征选择)放宽条件独立假设(贝叶斯网络、圆模型)
贝叶斯网络
扩展线性模型:
神经元模型(Neural Network): 模拟神经元,有很大的并行性,处理线性可分问题 ,类似于线性方程,用的不多激活函数: 根据输入得出输出,有 阀值、分段线性、Sigmoal(带参数,用的较多,因为连续可导)
感知器网络:单层网络,模型是一条直线
前馈性网络:多层的,前一层的输出是后一层的输入,反向不行,用于模式识别,模型是任意线
反馈性网络:多层的,后一层可作为前一层的输入,解决优化论
缺点:训练比较复杂;层数和每层的个数不确定,完全依靠经验;结论可解释性差,权值中的知识难以解释; 标准BP算法只能找到局部最小值
优点:可处理非线性数据,离散、连续和向量数据;适用于并行计算;算法鲁棒(不受影响),抗噪声数据
径向基函数网络 RBF Network
和神经元网络的不同: 激活函数是RBF函数,在概率中符合高斯分布。 只有三层,隐含层中激活函数可以各不相同。支持向量机: Support Vector Machines
基于小样本;连续数值; 解决分类问题很好通过非线性变化进行维数增加,使得数据线性可分
Meta 学习(系综方法)
把多个分类器组合在一起构成一个综合的分类器融合策略:
叠加归纳法: 多个分类器的结构进行综合,并行(权重、投票)
连机归纳法: 每个分类器对输入有个判断,同时考虑上个分类器传给它的判断,综合输出,串行
综合策略:
同种组合: 如不同的决策树组合
不同种组合(可操作性差,缺乏可解释性): 如决策树和贝叶斯的组合
学习效果好不好,要加大每个学习器的差异性
挖掘算法和数据集合 只有和特定问题相关 才能决定好坏
SVM和图像分类
场景:
应用在手写体识别,人脸识别,遥感图形分类, 文本分类研究基本思想:
基于统计学习理论的结构风险最小化原则最大分界间隔思想
线性不可分:
基于核的方法,向高维空间的非线性映射
引入松弛技术和惩罚因子
线性判别函数:
对点进行判断优点:
坚实的数学基础; 较好地解决小样本; 解决非线性、局部极小值缺点:
对于大样本运算量大; 改进: 块算法,分解算法,增量与在线训练算法图像检索:
图找图, 从图中提取特征向量,利用近似匹配技术,找到相应图片;将检索结果作为训练样本,产生分类器,利用分类器对图像库中图像进行分类,对于郑磊求出每幅图像与分类面的距离,对于距离越远的图像越接近查询样例,按距离从大到小排序
相关文章推荐
- 数据挖掘笔记:分类和预测,判定树
- 数据挖掘笔记:分类和预测bayes,svm等
- 数据挖掘算法--分类与预测笔记
- 数据挖掘笔记-分类-决策树-ID3和C4.5
- 数据挖掘——之分类和预测总结
- 数据挖掘笔记-分类-支持向量机SVM-1
- 数据挖掘之数据处理——SVM神经网络的数据分类预测-意大利葡萄酒种类识别
- 数据挖掘笔记-分类-决策树-MapReduce实现-2
- 大数据学习笔记之三十九 数据挖掘算法之预测建模
- 数据挖掘笔记-分类-KNN-原理与简单实现
- 总结数据挖掘预测分类中的样本筛选和特征处理
- 数据挖掘中分类和预测的异同
- 数据挖掘中分类与预测的区别
- 数据挖掘笔记-分类-贝叶斯网络
- 【数据挖掘笔记八】分类:基本概念
- 使用Weka进行数据挖掘(Weka教程七)Weka分类/预测模型构建与评价
- 数据挖掘学习笔记:分类、统计学习
- 【数据挖掘与R语言笔记】预测海藻数量(一)观察数据和处理数据缺失
- 机器学习&数据挖掘笔记_25(PGM练习九:HMM用于分类)
- 数据挖掘笔记-分类-贝叶斯-原理与简单实现