您的位置：首页 > 其它

数据挖掘笔记（2）——分类、数值预测

2013-08-26 18:03 183 查看

分类-主要方法

决策树

采用贪心策略以自顶向下的分治法构造决策树。
1. 选择样本集的一个属性作为根节点，为该属性的每个值产生一个分支
2. 将每个分支递归使用其他属性进行划分，仅使用真正到达这个分支的样本
3. 如果在一个节点上的所有样本都有相同的类别，即停止该部分树的扩展

基本问题

1. 选择属性的顺序
ID3 Information Galm 迭代的二分器
标准：信息增益，哪个加入的信息多（熵的减少）
通过特征划分数据，使用特征来建立模型，贪心选择哪个特征根据该划分产生的信息量。
C4.5 Gain Ratio ID3的后继
CART Gial Index 分类与回归树使用gini选择属性
2. 什么时候停止
停止条件
产生完全树后进行剪枝

优点

1. 结构建立原理上可信，容易让人理解

遗传算法：

进化计算：模拟生物中的进化，解决优化问题，包括进化策略、进化规划、遗传策略

原则：

进化发生在染色体级别：有机体不会进化，染色体重组变化
倾向于更多地复制更高适应度的有机体
种群保持多样性

解决问题：

解空间太大
不要求必须最优解
求解方法不完全知道
需要同时优化多个参数
难用数学形式描述

优势：

大范围搜索可行解的有效方法
并行计算
能自适应问题的变化：对不同客户提供个性化服务

步骤：

染色体编码
以某种方式包含关于其表示的解的信息，如使用二元向量
初始化种群
随机生成给定长度的染色体（二进制编码）种群
适应度函数的设计
对种群进行评估
选择（交替）
基于前一代迭代种群，选择适应度高的
交叉
对新的子代的染色体从某部分断开，进行交换
变异
染色体某些位置上产生突变，可防止所有解都落入局部最优解，在选择和交叉的基础上（类似于复制时的误差）

贝叶斯算法：

利用贝叶斯公式将假设信息与样本信息综合，得到预测信息
公式： P(c|x)=(P(x|c)P(c))/P(x)。 P(c|x)=P(c*x)/P(x)
令C为假设，X为训练数据，P（C）和P(X)为相应概率。 P(c|x)是给定训练数据存在时，假设C存在的概率（预测概率），如给定数据时，预测股票涨的概率
处理离散数据

朴素贝叶斯

使用公式预测那种假设发生的概率高。假设属性独立（很多情况下不成立）

改进：

引入属性选择方法（特征选择）
放宽条件独立假设（贝叶斯网络、圆模型）

贝叶斯网络

扩展线性模型：

神经元模型（Neural Network）: 模拟神经元，有很大的并行性，处理线性可分问题，类似于线性方程，用的不多
激活函数：根据输入得出输出，有阀值、分段线性、Sigmoal（带参数，用的较多，因为连续可导）
感知器网络：单层网络，模型是一条直线
前馈性网络：多层的，前一层的输出是后一层的输入，反向不行，用于模式识别，模型是任意线
反馈性网络：多层的，后一层可作为前一层的输入，解决优化论
缺点：训练比较复杂；层数和每层的个数不确定，完全依靠经验；结论可解释性差，权值中的知识难以解释；标准BP算法只能找到局部最小值
优点：可处理非线性数据，离散、连续和向量数据；适用于并行计算；算法鲁棒（不受影响），抗噪声数据

径向基函数网络 RBF Network

和神经元网络的不同: 激活函数是RBF函数，在概率中符合高斯分布。只有三层，隐含层中激活函数可以各不相同。

支持向量机： Support Vector Machines

基于小样本；连续数值；解决分类问题很好
通过非线性变化进行维数增加，使得数据线性可分

Meta 学习（系综方法）

把多个分类器组合在一起构成一个综合的分类器
融合策略：
叠加归纳法：多个分类器的结构进行综合，并行（权重、投票）
连机归纳法：每个分类器对输入有个判断，同时考虑上个分类器传给它的判断，综合输出，串行
综合策略：
同种组合：如不同的决策树组合
不同种组合（可操作性差，缺乏可解释性）：如决策树和贝叶斯的组合
学习效果好不好，要加大每个学习器的差异性
挖掘算法和数据集合只有和特定问题相关才能决定好坏

SVM和图像分类

场景：

应用在手写体识别，人脸识别，遥感图形分类，文本分类研究

基本思想：

基于统计学习理论的结构风险最小化原则
最大分界间隔思想
线性不可分：
基于核的方法，向高维空间的非线性映射
引入松弛技术和惩罚因子

线性判别函数：

对点进行判断

优点：

坚实的数学基础；较好地解决小样本；解决非线性、局部极小值

缺点：

对于大样本运算量大；改进：块算法，分解算法，增量与在线训练算法

图像检索：

图找图，从图中提取特征向量，利用近似匹配技术，找到相应图片；
将检索结果作为训练样本，产生分类器，利用分类器对图像库中图像进行分类，对于郑磊求出每幅图像与分类面的距离，对于距离越远的图像越接近查询样例，按距离从大到小排序

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航