您的位置：首页 > 其它

机器学习之无监督学习（K-means）

2019-07-21 23:20 309 查看

一家广告平台需要根据相似的人口学特征和购买习惯将美国人口扽成不同的小组，以便广告客户可以通过有关联的广告接触到它们的目标客户。
Airbnb需要将自己的方误清单分组成不同的社区，以便用户能更轻松地查询这些问题清单。
一个数据科团队需要降低一个大型数据集的维度和数量，以便简化建模和降低文件大小。
如何最有用的对其进行归纳和分组？以一种怎样的压缩格式有效地表示数据？这都是无监督学习的目标，之所以称为无监督，是因为这是从无标签的数据集开始学习的。

K-means聚类步骤：

K-meansAPI

sklearn.cluster KMeans(n_cluters=8,init='k-means++')

案例：K-means对Instacart Market用户聚类

分析：
（1）降维之后的数据
（2）k-means聚类
（3）聚类结果显示
第一步的降维过程在这里：https://blog.csdn.net/weixin_44953902/article/details/96302671

#聚类分析
from sklearn.cluster import KMeans
estimator = KMeans(n_clusters = 3)
estimator.fit(data)
y_predict = estimator.predict(data)
y_predict

结果：

注：对于每个点i为已聚类数据中的样本，b_i为i到其他簇群的所有样本的距离最小值，a_i为i到本身簇的距离平均值。最终计算出所有样本点的轮廓系数平均值。

轮廓系数值分析

分析过程（以蓝点为例）：
（1）计算蓝点离本身簇所有点的距离的平均值a_i
（2）蓝点到其他两个簇的样本距离的最小值为b_i
根据公式：极端值：如果b_i>>a_i;趋近于1；如果b_i<<a_i;趋近于-1
结论
如果b_i>>a_i，结果趋近于1，效果越好，b_i<<a_i，趋近于-1，效果越不好。轮廓系数的值是介于[-1,1]，越趋近于1代表内聚度和分离度都相对较优。
轮廓系数API
```
sklearn.metrics silhouette_score(X,labels)
```
计算所有样本的平均轮廓系数
X：特征值
labels：被聚类标记的目标值
用户聚类结果评估----和上面的案例使用的同一个数据

#模型评估-轮廓系数
from sklearn.metrics import silhouette_score
silhouette_score(data,y_predict)

结果：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航