您的位置:首页 > 编程语言

集体智慧编程中的分级聚类学习

2016-10-08 19:09 351 查看
本人比较笨,下面写下看过这本书这一节后的思路。

处理的数据格式是data,是一个列表,列表元素是列表,子列表为每个样本的向量表示形式。

思路:

1.把所有点做成聚类,放入到初始聚类集clust(列表)中。

clust=[bicluster(row[i],id=i) for i in range(len(rows))]  #bicluster是一个表示聚类的类class

2.遍历每一个配对,寻找最小距离,将最小距离的两个聚类,组成一个聚类

判断条件:聚类集的长度大于1,(每次聚类两个。生成一个,删除两个,所以总数一直在减小)

每次都是通过令lowestpair=(0,1),closest=distance(clust[0].vec,clust[1].vec)

3.字典distances用来存储每两个点的相似度距离值{(id1,id2):sim,......}  如果某个点对不在distances中,则放进去

4.比对当前两点i与j的距离d是否小于closest,如果小于,则令closest=d,lowestpair=(i,j)

两层for循环后,就得到了距离最小的对(lowestpair[0],lowestpair[1])

5.计算新的聚类,即两个点的向量分量的平均值,并用bicluster构建新聚类,它的编号为currentclusterid为负数,新生成的聚类都用负数表示

6.不在原始的集合的聚类,其id都为负数,删除lowestpair[0],lowestpair[1]对应的原始聚类,并添加新的聚类

代码如下所示:

class bicluster:

    def __init__(self,vec,left=None,right=None,distance=0.0,id=None):

        self.left=left

        self.vec=vec

        self.right=right

        self.distance=distance

        self.id=id

def hcluster(data,distance=pearson):

    distances={}

    currentclusterid=-1

    clust=[bicluster(data[i],id=i) for i in range(len(data))]

    while(len(clust)>1):

        lowestpair=(0,1)

        closest=distance(clust[0].vec,clust[1].vec)

        for i in range(len(clust)):

            for j in range(i+1,len(clust)):

                if (clust[i].id,clust[j].id) not in distances:

                    distances[(clust[i].id,clust[j].id)]=distance(clust[i].vec,clust[j].vec)

                d=distance(clust[i].vec,clust[j].vec)

                if d<closest:

                    closest=d

                    lowestpair=(i,j)

        mergevec=[(clust[lowestpair[0]].vec[i]+clust[lowestpair[1]].vec[i])/2.0  for i in range(len(clust[0].vec))]

        newcluster=bicluster(mergevec,clust[lowestpair[0]],clust[lowestpair[1]],distance=closest,id=currentclusterid)

        currentclusterid-=1

        del clust[lowestpair[1]]

        del clust[lowestpair[0]]

        clust.append(newcluster)

    return clust[0]
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: