python 聚类分析实战案例:K-means算法(原理源码)
2017-12-20 14:44
281 查看
K-means算法:
关于步骤:参考之前的博客
关于代码与数据:暂时整理代码如下:后期会附上github地址,上传原始数据与代码完整版,
各种聚类算法的对比:参考连接
2.Kmeans需要人为地确定初始聚类中心,不同的初始聚类中心可能导致完全不同的聚类结果。
写入文件类型
#2. calculate Distance
#0.函数调用初始中心点
关于步骤:参考之前的博客
关于代码与数据:暂时整理代码如下:后期会附上github地址,上传原始数据与代码完整版,
各种聚类算法的对比:参考连接
Kmeans算法的缺陷
1.聚类中心的个数K 需要事先给定,但在实际中这个 K 值的选定是非常难以估计的,很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适2.Kmeans需要人为地确定初始聚类中心,不同的初始聚类中心可能导致完全不同的聚类结果。
#!usr/bin/env python #_*_ coding:utf-8 _*_ import random import math ''' kMeans:2列数据对比,带有head ''' #1.load data def importData(): f = lambda name,b,d: [name, float(b), float(d)] with open('birth-death-rates.csv', 'r') as inputFile: return [f(*line.strip().split('\t')) for line in inputFile]
写入文件类型
#2. calculate Distance
def euclideanDistance(x,y): return math.sqrt(sum([(a-b)**2 for (a,b) in zip(x,y)])) #L=points, def partition(points, k, means, d=euclideanDistance): # print('means={}'.format(means)) thePartition = [[] e368 for _ in means] # list of k empty lists indices = range(k) # print('indices={}'.format(indices)) for x in points: #index为indices索引,调用d函数,计算每个值与聚类中心的距离,将其分类 closestIndex = min(indices, key=lambda index: d(x, means[index]))#实现X与每个Y直接的求解:key=lambda index: d(x, means[index]) thePartition[closestIndex].append(x) return thePartition
#3.寻找收敛点 def mean(points): ''' assume the entries of the list of points are tuples; e.g. (3,4) or (6,3,1). ''' n = len(points) # print(tuple(float(sum(x)) / n for x in zip(*points))) #*points将【[1,2],[2,3]】分割出来【1,2】 return tuple(float(sum(x)) / n for x in zip(*points)) #将最开始的[[4, 1], [1, 5]] 经过处理变成[(4, 1),(1, 5)] def kMeans(points, k, initialMeans, d=euclideanDistance): oldPartition = [] newPartition = partition(points, k, initialMeans, d) while oldPartition != newPartition: oldPartition = newPartition newMeans = [mean(S) for S in oldPartition] newPartition = partition(points, k, newMeans, d) return newPartition
#0.函数调用初始中心点
if __name__ == "__main__": L = [x[1:] for x in importData()] # remove names # print (str(L).replace('[','{').replace(']', '}')) import matplotlib.pyplot as plt ''' plt.scatter(*zip(*L)) plt.show() ''' import random k = 3 partition = kMeans(L, k, random.sample(L, k)) #L是集合,K分类个数,random.sample(L, k)中心点 plt.scatter(*zip(*partition[0]), c='b')#[[],[],[]] plt.scatter(*zip(*partition[1]), c='r') plt.scatter(*zip(*partition[2]), c='g') plt.show()
相关文章推荐
- Spark 随机森林算法原理、源码分析及案例实战
- Spark 随机森林算法原理、源码分析及案例实战
- python主成分分析实战案例
- 2018python数据分析与机器学习实战(视频+源码+课件)
- Spark算子[03]:mapPartitions,mapPartitionsWithIndex 源码实战案例分析
- [置顶] Python时间序列案例分析实战--奶牛产奶量预测
- Python+pandas+matplotlib数据分析与可视化案例(附源码)
- MFC源码实战分析(三)——消息映射原理与消 4000 息路由机制初探
- 响应式开发从原理到实战案例(三):静态页面转响应式页面
- SPSS聚类分析——一个案例演示聚类分析全过程
- 响应式开发从原理到实战案例(六):bootstrap框架介绍
- HashMap实现原理及源码分析
- [原理分析]Linux下的栈溢出案例分析-GDB调试操练[4]
- 看了handler源码后,对其用法及原理的一点分析
- python threadpool 源码分析以及自己封装的简易版线程池
- Python元组部分源码分析,元组和列表是可以相互转换的
- fisher判别分析原理+python实现
- SpringBoot实战和原理分析学习
- 简单分析Python ctypes模块的WinDLL源码(我爱Python,吼吼~)
- Spring Boot实战与原理分析视频课程