您的位置:首页 > 编程语言 > C语言/C++

K-Mean聚类算法+C语言代码

2015-07-23 12:35 435 查看
K-Mean聚类算法+C语言代码:

实现步骤:

1. 确定分的簇数K;

2. 随机选择K个簇作为数据的计算中心,即随机选取质心;

3. 用欧式距离计算每组数据到中心的距离,将距离最短的对应纳入对应簇 Crowd[lable];

4. 计算各组簇到该簇中心的欧式距离和 Var;

5. oldVar 与 newVar 进行比较,若abs(oldVar - newVar)<1,即新旧误差在1范围内结束迭代,否则,执行步骤6;

6. 更新质心,即计算当前组簇的 Crowd[i]的平均值作为新的质心;执行步骤3。

以鸢尾花数据集为例:

#include "stdio.h"

#include "stdlib.h"

#include "math.h"

#include "time.h"

#include "vector"

using namespace std;

#define K 4 //簇数为3

#define dimNum 3 //维数为3

typedef vector<double> doubleVector;

vector<doubleVector> getFileInf(); //获取文件信息

void K_Mean(vector<doubleVector> srcInf); //k均值开始引擎

int getClusterLable(doubleVector meanCenter[], doubleVector srcInf); //簇数赋值

double getEUCdis(doubleVector t1, doubleVector t2); //计算欧式距离

double getVar(vector<doubleVector> cluster[], doubleVector meanCenter[]); //计算误差平方和

doubleVector getMeanCenter(vector<doubleVector> cluster); //更新质点

void output(vector<doubleVector> cluster[]); //结果输出

void main()

{

vector<doubleVector> srcInf;

srcInf = getFileInf();

K_Mean(srcInf);

}

//获取文件信息

vector<doubleVector> getFileInf()

{

vector<doubleVector> dst;

doubleVector temp;

double num;

int i=1;

FILE *fp;

fp = fopen("testInf.txt", "r");

if(fp == NULL)

{

printf("Open file error!\n");

exit(0);

}

while(fscanf(fp, "%lf", &num)!=EOF)

{

temp.push_back(num);

if(i%dimNum==0)

{

dst.push_back(temp);

temp.clear();

}

i++;

}

return dst;

}

//K均值开始引擎

void K_Mean(vector<doubleVector> srcInf)

{

vector<doubleVector> Clusters[K]; //K个簇数

doubleVector meanCenter[K]; //K个中心

int i, j;

int cSelect;

srand(time(NULL));

//随机获取均值中心即质心

for(i=0; i<K; i++)

{

cSelect = rand()%(int)(srcInf.size()/K)+(int)(i*srcInf.size()/K);

for(j=0; j<dimNum; j++)

meanCenter[i].push_back(srcInf[cSelect][j]); //随机选择三组为中心

}

int lable = 0;

//根据质心给簇数赋值

for(i=0; i<srcInf.size(); i++)

{

lable = getClusterLable(meanCenter, srcInf[i]);

Clusters[lable].push_back(srcInf[i]);

}

double oldVar = -1;

double newVar = getVar(Clusters, meanCenter); //整体误差平方和

printf("本次迭代值为%lf\n", newVar);

while(fabs(oldVar-newVar)>=1) //当新旧函数值相差不到1即准则函数值不发生明显变化时,算法终止

{

//更新质点

for(i=0; i<K; i++)

meanCenter[i] = getMeanCenter(Clusters[i]);

oldVar = newVar;

newVar = getVar(Clusters, meanCenter);

//清空每个簇

for(i=0; i<K; i++)

Clusters[i].clear();

for(i=0; i<srcInf.size(); i++)

{

lable = getClusterLable(meanCenter, srcInf[i]);

Clusters[lable].push_back(srcInf[i]);

}

printf("本次迭代值为%lf\n", newVar);

}

output(Clusters);

}

//给簇数赋值

int getClusterLable(doubleVector meanCenter[], doubleVector srcInf)

{

double dist = getEUCdis(meanCenter[0], srcInf);

double temp;

int i, label=0;//标示属于哪一个簇

for(i=1; i<K; i++)

{

temp = getEUCdis(meanCenter[i], srcInf);

if(temp<dist)

{

dist=temp;

label=i;

}

}

return label;

}

//欧式距离计算

double getEUCdis(doubleVector t1, doubleVector t2)

{

double distance=0;

int i;

for(i=0; i<dimNum; i++)

distance += (t1[i]-t2[i])*(t1[i]-t2[i]);

return sqrtf(distance);

}

//计算误差平方和

double getVar(vector<doubleVector> cluster[], doubleVector meanCenter[])

{

int i, j;

double var=0;

vector<doubleVector> temp;

for (i=0; i<K; i++)

{

temp = cluster[i];

for (j=0; j<temp.size(); j++)

{

var += getEUCdis(temp[j], meanCenter[i]);

}

}

return var;

}

//质点更新

doubleVector getMeanCenter(vector<doubleVector> culster)

{

int i, j;

int num = culster.size();

doubleVector temp(dimNum, 0);

for(i=0; i<num; i++)

for(j=0; j<dimNum; j++)

temp[j] += culster[i][j];

for(j=0; j<=dimNum; j++)

temp[j] /= num;

return temp;

}

//结果输出

void output(vector<doubleVector> cluster[])

{

printf("结果为\n");

int i, j, lable;

for(lable=0; lable<K; lable++)

{

printf("第%d个簇:\n", lable+1);

vector<doubleVector> t = cluster[lable];

for(i=0; i<t.size(); i++)

{

printf("%d.(", i+1);

for(j=0; j<dimNum; j++)

printf("%0.2lf, ", t[i][j]);

printf(")\n");

}

}

}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: