您的位置:首页 > 大数据

大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 聚类分析算法)

2014-10-08 09:40 966 查看
本篇文章主要是继续上一篇Microsoft决策树分析算法后,采用另外一种分析算法对目标顾客群体的挖掘,同样的利用微软案例数据进行简要总结。

应用场景介绍

通过上一篇中我们采用Microsoft决策树分析算法对已经发生购买行为的订单中的客户属性进行了分析,可以得到几点重要的信息,这里做个总结:

1、对于影响购买自行车行为最重要的因素为:家中是否有小汽车,其次是年龄,再次是地域

2、通过折叠树对于比较想买自行车的顾客群体特征主要是:家里没有车、年龄在45岁一下、不在北美地区、家里也没有孩子(大米国里面的屌丝层次)、

%26nbsp;%26nbsp;%26nbsp;%26nbsp; 同样还有就是家里有一辆车、年龄在37到53之间、通勤距离小于10Miles,家里孩子少于4个,然后年收入在58000$以上(大米国的高富帅了)

其实决策树算法最主要的应用场景就是分析影响某种行为的因素排序,通过这种算法我们可以知道某些特定群体他们都会有几个比较重要的属性,比如家里有没有车、年龄等,但是我们想要分析这部分特定群体其特有属性就没法做到,而要分析这种特定群体所共同含有的共同属性就需要今天我们的Microsoft聚类分析算法出场了,简单点讲就是:物以类分、人以群分,通过聚类分析算法我们要找到那些将要买自行车的顾客群里都有哪些属性,比如当我们晚上进入广场会看到,广场大妈一群、儿童扎在一群、打篮球的一群、还有一群情侣在广场边幽暗的树林里等等,而他们这些团队之间是有差别的,若果要去卖儿童玩具...那种群体是你最想靠近的自然而然了。

技术准备

(1)同样我们利用微软提供的案例数据仓库(AdventureWorksDW2008R2),两张事实表,一张已有的历史购买自行车记录的历史,另外一张就是我们将要挖掘的收集过来可能发生购买自行车的人员信息表,可以参考上一篇文章

(2)VS、SQL Server、 Analysis Services没啥可介绍的,安装数据库的时候全选就可以了。

下面我们进入主题,同样我们继续利用上次的解决方案,依次步骤如下:

(1)打开解决方案,进入到%26ldquo;挖掘模型%26rdquo;模板





通过上面可以看到已经存在一种决策树算法了,我们来添加另外一种算法。

2、右键单击%26ldquo;结构%26rdquo;列,选择%26ldquo;新建挖掘模型%26rdquo;,输入名称即可





点击确定,这样我们新建立的聚类分析就会增加在挖掘模型中,这里我们使用的主键和决策树一样,同样的预测行为也是一样的,输入列也是,可以更改。

下一步,部署处理该挖掘模型。

结果分析

同样这里面我们采用%26ldquo;挖掘模型查看器%26rdquo;进行查看,这里挖掘模型我们选择%26ldquo;Clustering%26rdquo;,这里面会提供四个选项卡,下面我们依次介绍,直接晒图:



同行这里面我们选择要发生购买自行车的群里,颜色最深的为最会购买自行车的群里,图中箭头我们已经显示出来了,同样我们也可以找到最不想买自行车的一群人,也就是%26ldquo;分类四%26rdquo;,他们之间线条的强弱表示关联关系强弱,当然这里为了好记我们可以给他们改改名,直接选择类,右键重命名。



如上图,下面我们要做的就是要分析这些群体有啥特征了,当然我们最关心的为:最想买车的一群人、不想买车的也可以的,至于不想真相的群体、路人群体甲、乙...这个都是些打酱油的了,我们就不分析了。

我们打开%26ldquo;分类剖面图%26rdquo;看看:



哈...这几类群体的特征已经展示出来了,如果玩数据久了,会对图表有一种直观敏锐,对数据也要保持一种特定的嗅觉。今晚我先不分析图表中这群最想买车的银的特征了,明天继续分析,又看出的可以帮我简单分析下,同样先晒几张结构图:



%26nbsp;





明晚分析结果,然后将这两种算法的特点进行对比分析。对大数据有兴趣的不要忘记你的%26ldquo;推荐%26rdquo;哦。

晒一句数据挖掘的力量:我就知道你会这么做!

%26nbsp;

(未完待续.....)

%26nbsp;
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐