您的位置：首页 > 编程语言

集体智慧编程中的分级聚类学习

2016-10-08 19:09 351 查看

本人比较笨，下面写下看过这本书这一节后的思路。

处理的数据格式是data，是一个列表，列表元素是列表，子列表为每个样本的向量表示形式。

思路：

1.把所有点做成聚类，放入到初始聚类集clust（列表）中。

clust=[bicluster(row[i],id=i) for i in range(len(rows))] #bicluster是一个表示聚类的类class

2.遍历每一个配对，寻找最小距离，将最小距离的两个聚类，组成一个聚类

判断条件：聚类集的长度大于1，（每次聚类两个。生成一个，删除两个，所以总数一直在减小）

每次都是通过令lowestpair=(0,1),closest=distance(clust[0].vec,clust[1].vec)

3.字典distances用来存储每两个点的相似度距离值{（id1,id2）:sim,......} 如果某个点对不在distances中，则放进去

4.比对当前两点i与j的距离d是否小于closest，如果小于，则令closest=d,lowestpair=(i,j)

两层for循环后，就得到了距离最小的对（lowestpair[0],lowestpair[1]）

5.计算新的聚类，即两个点的向量分量的平均值，并用bicluster构建新聚类，它的编号为currentclusterid为负数，新生成的聚类都用负数表示

6.不在原始的集合的聚类，其id都为负数，删除lowestpair[0],lowestpair[1]对应的原始聚类，并添加新的聚类

代码如下所示：

class bicluster:

def __init__(self,vec,left=None,right=None,distance=0.0,id=None):

self.left=left

self.vec=vec

self.right=right

self.distance=distance

self.id=id

def hcluster(data,distance=pearson):

distances={}

currentclusterid=-1

clust=[bicluster(data[i],id=i) for i in range(len(data))]

while(len(clust)>1):

lowestpair=(0,1)

closest=distance(clust[0].vec,clust[1].vec)

for i in range(len(clust)):

for j in range(i+1,len(clust)):

if (clust[i].id,clust[j].id) not in distances:

distances[(clust[i].id,clust[j].id)]=distance(clust[i].vec,clust[j].vec)

d=distance(clust[i].vec,clust[j].vec)

if d<closest:

closest=d

lowestpair=(i,j)

mergevec=[(clust[lowestpair[0]].vec[i]+clust[lowestpair[1]].vec[i])/2.0 for i in range(len(clust[0].vec))]

newcluster=bicluster(mergevec,clust[lowestpair[0]],clust[lowestpair[1]],distance=closest,id=currentclusterid)

currentclusterid-=1

del clust[lowestpair[1]]

del clust[lowestpair[0]]

clust.append(newcluster)

return clust[0]

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航