您的位置：首页 > 其它

数据挖掘模型介绍之二：表查询模型（查询表格模型）

2014-02-19 11:24 309 查看

1．表查询模型的基本思想：

表查询模型基本上基于这样一个基本思想：在多个已知属性上上相似的个体，在其他属性上也会相似。

比如个体A和个体B的三个属性x1，x2，x3相似，那么另外一个属性y很可能也相似。

注：

（1）这种相似性的关联是有限制的，主要的限制就是x1，x2，x3和y应该具有比较高的相关性。如果x1，x2，x3和y没有相关性，那么，即使两个个体在x1，x2，x3属性上都非常相似，在属性y上也不一定相似。

（2）实际上，不光是表查询模型的基本思想是这个，其他很多数据挖掘模型的基本思想也是这个。比如各种回归模型。

2．表查询模型的基本使用流程

（1）确定一个需要进行预测的目标y。比如顾客未来1个月会产生购买的可能性，用户未来3个月内流失的可能性等等。

（2）确定建立模型的训练集。训练集应该是包含预测目标y的结果的数据集。并且包含较多的候选自变量。

（3）找到几个和y相关性大的变量作为自变量。

（4）对自变量进行分段，各自变量的每个分段互相组合，即形成了查询表的单元格。

（5）把训练集个记录根据自变量组合分到各个查询单元格。

（6）把各单元格统计出来的y的取值作为预测结果。模型建立完毕。

（7）如果有验证集，使用测试集对训练集上建立的模型进行验证，查看效果。

3．表查询模型的关键流程详解

3.1 选择用来创建查询表的自变量

（1）选择标准：

1）维度应该对因变量y有较大的影响力（高度相关，不同取值时y的取值有明显区别）；

2）维度之间相关性尽可能低，高相关性会造成有些单元格训练样本数太低（不过有时不必太关心这个问题，因为训练样本数低的单元格，在模型应用时，会落进来的记录也会很少）。

（2）选中的维度数量多少主要取决于：

1）用维度划分后，每个单元格训练样本的数量不能太少，一般情况下，至少也应该有几十个；

2）在样本数足够多的前提下，维度多些，划分精细些，模型效果会好一些。但过犹不及，不要把每个维度都划分的过于密集，避免过拟合。

3.2 对自变量进行分段

（1）自变量分段的总体原则：没有固定标准，从实际出发。

（2）类别变量常用的分段方法：

1）每个类别一个分段；

2）训练样本数比较小的类别，可以进行合并，但合并时应该注意，尽量把因变量y取值相近的类别合并，相差太远的尽量不合并；

3）特别大的类别可以进一步划分为小类别。

（3）数值型变量的划分方法：

1）不同分段有业务含义的，可以按业务含义分段；

2）没有业务含义的，可以按等分的方式分段，比如用20%分位数，10%分位数，5%分位数。

（4）每个单元格最佳的样本数量：最少也需要几十个。

3.3 训练模型

（1）把训练集的记录按照划分分到各个单元格，计算每个单元格的预测变量y的预测值。

（2）对于y是数值型的变量，y的预测值是本单元格所有个体y值的平均值。

（3）对于y是分类型的变量，y的预测值是本单元格所有个体y取各个类别的比例。通常，分类型的预测都会有一个特定的感兴趣的分类，比如响应、流失等，这时，只需要计算所有个体的y是响应（流失）的比例，作为本单元格的预测值即可。

3.4 稀疏单元格的处理方法

（1）首先考虑对某些稀疏的单元格去掉一些维度，可以从影响最小的维度开始去掉，直到单元格里的样本量够大。

（2）对于极为稀疏，甚至稀疏到0个样本的单元格（比如某个产品在某个地区根本不销售，那么这两个维度交叉起来的这个单元格样本数应该是0），可以把这样的单元格集中到一起，作为一个特殊类别，这个类别的y的预测值置为训练集所有个体作为一组时y的预测值。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航