您的位置：首页 > 编程语言 > Java开发

聚类算法之kmeans算法java版本

2014-04-05 02:32 351 查看

聚类的意思很明确，物以类聚，把类似的事物放在一起。

聚类算法是web智能中很重要的一步，可运用在社交，新闻，电商等各种应用中，我打算专门开个分类讲解聚类各种算法的java版实现。

首先介绍kmeans算法。

kmeans算法的速度很快，性能良好，几乎是应用最广泛的，它需要先指定聚类的个数k，然后根据k值来自动分出k个类别集合。

举个例子，某某教练在得到全队的数据后，想把这些球员自动分成不同的组别，你得问教练需要分成几个组，他回答你k个，ok可以开始了，在解决这个问题之前有必要详细了解自己需要达到的目的：根据教练给出的k值，呈现出k个组，每个组的队员是相似的。

首先，我们创建球员类。

viewsource

print?

01	package kmeans;

/**

*球员

06	*@author阿飞哥

*/

09	public class Player{

11	private int id;

12	private Stringname;

14	private int age;

/*得分*/

17	@KmeanField

18	privatedoublegoal;

/*助攻*/

21	//@KmeanField

22	privatedoubleassists;

/*篮板*/

25	//@KmeanField

26	privatedoublebackboard;

/*抢断*/

29	//@KmeanField

30	private double steals;

32	public int getId(){

33	return id;

36	public void setId( int id){

37	this .id=id;

40	public StringgetName(){

41	return name;

44	public void setName(Stringname){

45	this .name=name;

48	public int getAge(){

49	return age;

52	public void setAge( int age){

53	this .age=age;

56	public double getGoal(){

57	return goal;

60	public void setGoal( double goal){

61	this .goal=goal;

64	public double getAssists(){

65	return assists;

68	public void setAssists( double assists){

69	this .assists=assists;

72	public double getBackboard(){

73	return backboard;

76	public void setBackboard( double backboard){

77	this .backboard=backboard;

80	public double getSteals(){

81	return steals;

84	public void setSteals( double steals){

85	this .steals=steals;

@KmeanField这个注解是自定义的，用来标示这个属性是否是算法需要的维度。

代码如下

viewsource

print?

01	package kmeans;

03	import java.lang.annotation.ElementType;

04	import java.lang.annotation.Retention;

05	import java.lang.annotation.RetentionPolicy;

06	import java.lang.annotation.Target;

/**

09	*在对象的属性上标注此注释，

10	*表示纳入kmeans算法,仅支持数值类属性

11	*@author阿飞哥

*/

13	@Retention (RetentionPolicy.RUNTIME)

14	@Target (ElementType.FIELD)

15	public @interface KmeanField{

接下来看看最核心的kmeans算法，具体实现过程如下：

1，初始化k个聚类中心

2，计算出每个对象跟这k个中心的距离（相似度计算，这个下面会提到），假如x这个对象跟y这个中心的距离最小（相似度最大），那么x属于y这个中心。这一步就可以得到初步的k个聚类

3，在第二步得到的每个聚类分别计算出新的聚类中心，和旧的中心比对，假如不相同，则继续第2步，直到新旧两个中心相同，说明聚类不可变，已经成功

实现代码如下：

viewsource

print?

001	package kmeans;

003	import java.lang.annotation.Annotation;

004	import java.lang.reflect.Field;

005	import java.lang.reflect.Method;

006	import java.util.ArrayList;

007	import java.util.List;

/**

011	*@author阿飞哥

*/

014	public class Kmeans<T>{

/**

*所有数据列表

*/

019	private List<T>players= new ArrayList<T>();

/**

*数据类别

*/

024	private Class<T>classT;

/**

*初始化列表

*/

029	private List<T>initPlayers;

/**

032	*需要纳入kmeans算法的属性名称

*/

034	private List<String>fieldNames= new ArrayList<String>();

/**

*分类数

*/

039	private int k= 1 ;

041	public Kmeans(){

/**

*初始化列表

048	*@paramlist

*@paramk

*/

051	public Kmeans(List<T>list, int k){

052	this .players=list;

053	this .k=k;

054	Tt=list.get( 0 );

055	this .classT=(Class<T>)t.getClass();

056	Field[]fields= this .classT.getDeclaredFields();

057	for ( int i= 0 ;i<fields.length;i++){

058	AnnotationkmeansAnnotation=fields[i]

059	.getAnnotation(KmeanField. class );

060	if (kmeansAnnotation!= null ){

061	fieldNames.add(fields[i].getName());

066	initPlayers= new ArrayList<T>();

067	for ( int i= 0 ;i<k;i++){

068	initPlayers.add(players.get(i));

072	public List<T>[]comput(){

073	List<T>[]results= new ArrayList[k];

075	boolean centerchange= true ;

076	while (centerchange){

077	centerchange= false ;

078	for ( int i= 0 ;i<k;i++){

079	results[i]= new ArrayList<T>();

081	for ( int i= 0 ;i<players.size();i++){

082	Tp=players.get(i);

083	double []dists= new double [k];

084	for ( int j= 0 ;j<initPlayers.size();j++){

085	TinitP=initPlayers.get(j);

/*计算距离*/

087	doubledist=distance(initP,p);

088	dists[j]=dist;

091	intdist_index=computOrder(dists);

092	results[dist_index].add(p);

095	for(inti=0;i<k;i++){

096	Tplayer_new=findNewCenter(results[i]);

097	Tplayer_old=initPlayers.get(i);

098	if(!IsPlayerEqual(player_new,player_old)){

099	centerchange=true;

100	initPlayers.set(i,player_new);

107	returnresults;

/**

111	*比较是否两个对象是否属性一致

*@paramp1

*@paramp2

*@return

*/

117	publicbooleanIsPlayerEqual(Tp1,Tp2){

118	if(p1==p2){

119	returntrue;

121	if(p1==null\|\|p2==null){

122	returnfalse;

127	booleanflag=true;

try{

129	for(inti=0;i<fieldNames.size();i++){

130	StringfieldName=fieldNames.get(i);

131	StringgetName="get"

132	+fieldName.substring(0,1).toUpperCase()

133	+fieldName.substring(1);

134	Objectvalue1=invokeMethod(p1,getName,null);

135	Objectvalue2=invokeMethod(p2,getName,null);

136	if(!value1.equals(value2)){

137	flag=false;

break;

141	}catch(Exceptione){

142	e.printStackTrace();

143	flag=false;

146	returnflag;

/**

150	*得到新聚类中心对象

*@paramps

*@return

*/

155	publicTfindNewCenter(List<T>ps){

try{

157	Tt=classT.newInstance();

158	if(ps==null\|\|ps.size()==0){

returnt;

162	double[]ds=newdouble[fieldNames.size()];

163	for(Tvo:ps){

164	for(inti=0;i<fieldNames.size();i++){

165	StringfieldName=fieldNames.get(i);

166	StringgetName="get"

167	+fieldName.substring(0,1).toUpperCase()

168	+fieldName.substring(1);

169	Objectobj=invokeMethod(vo,getName,null);

170	Doublefv=(obj==null?0:Double.parseDouble(obj+""));

171	ds[i]+=fv;

176	for(inti=0;i<fieldNames.size();i++){

177	ds[i]=ds[i]/ps.size();

178	StringfieldName=fieldNames.get(i);

/*给对象设值*/

181	StringsetName="set"

182	+fieldName.substring(0,1).toUpperCase()

183	+fieldName.substring(1);

185	invokeMethod(t,setName,newClass[]{double.class},ds[i]);

returnt;

190	}catch(Exceptionex){

191	ex.printStackTrace();

193	returnnull;

/**

198	*得到最短距离，并返回最短距离索引

200	*@paramdists

*@return

*/

203	publicintcomputOrder(double[]dists){

204	doublemin=0;

205	intindex=0;

206	for(inti=0;i<dists.length-1;i++){

207	doubledist0=dists[i];

if(i==0){

209	min=dist0;

index=0;

212	doubledist1=dists[i+1];

213	if(min>dist1){

214	min=dist1;

215	index=i+1;

219	returnindex;

/**

223	*计算距离（相似性）采用欧几里得算法

*@paramp0

*@paramp1

*@return

*/

229	publicdoubledistance(Tp0,Tp1){

230	doubledis=0;

try{

233	for(inti=0;i<fieldNames.size();i++){

234	StringfieldName=fieldNames.get(i);

235	StringgetName="get"

236	+fieldName.substring(0,1).toUpperCase()

237	+fieldName.substring(1);

239	Doublefield0Value=Double.parseDouble(invokeMethod(p0,getName,null)+"");

240	Doublefield1Value=Double.parseDouble(invokeMethod(p1,getName,null)+"");

241	dis+=Math.pow(field0Value-field1Value,2);

244	}catch(Exceptionex){

245	ex.printStackTrace();

247	returnMath.sqrt(dis);

251	/------公共方法-----/

252	public ObjectinvokeMethod(Objectowner,StringmethodName,Class[]argsClass,

253	Object...args){

254	ClassownerClass=owner.getClass();

try

256	Methodmethod=ownerClass.getDeclaredMethod(methodName,argsClass);

257	return method.invoke(owner,args);

258	} catch (SecurityExceptione){

259	e.printStackTrace();

260	} catch (NoSuchMethodExceptione){

261	e.printStackTrace();

262	} catch (Exceptionex){

263	ex.printStackTrace();

266	return null ;

最后咱们测试一下：

viewsource

print?

01	package kmeans;

03	import java.util.ArrayList;

04	import java.util.List;

05	import java.util.Random;

07	public class TestMain{

09	public static void main(String[]args){

10	List<Player>listPlayers= new ArrayList<Player>();

12	for ( int i= 0 ;i< 15 ;i++){

14	Playerp1= new Player();

15	p1.setName( "afei-" +i);

16	p1.setAssists(i);

17	p1.setBackboard(i);

19	//p1.setGoal(newRandom(100*i).nextDouble());

20	p1.setGoal(i* 10 );

21	p1.setSteals(i);

22	//listPlayers.add(p1);

25	Playerp1= new Player();

26	p1.setName( "afei1" );

27	p1.setGoal( 1 );

28	p1.setAssists( 8 );

29	listPlayers.add(p1);

31	Playerp2= new Player();

32	p2.setName( "afei2" );

33	p2.setGoal( 2 );

34	listPlayers.add(p2);

36	Playerp3= new Player();

37	p3.setName( "afei3" );

38	p3.setGoal( 3 );

39	listPlayers.add(p3);

41	Playerp4= new Player();

42	p4.setName( "afei4" );

43	p4.setGoal( 7 );

44	listPlayers.add(p4);

46	Playerp5= new Player();

47	p5.setName( "afei5" );

48	p5.setGoal( 8 );

49	listPlayers.add(p5);

51	Playerp6= new Player();

52	p6.setName( "afei6" );

53	p6.setGoal( 25 );

54	listPlayers.add(p6);

56	Playerp7= new Player();

57	p7.setName( "afei7" );

58	p7.setGoal( 26 );

59	listPlayers.add(p7);

61	Playerp8= new Player();

62	p8.setName( "afei8" );

63	p8.setGoal( 27 );

64	listPlayers.add(p8);

66	Playerp9= new Player();

67	p9.setName( "afei9" );

68	p9.setGoal( 28 );

69	listPlayers.add(p9);

72	Kmeans<Player>kmeans= new Kmeans<Player>(listPlayers, 3 );

73	List<Player>[]results=kmeans.comput();

74	for ( int i= 0 ;i<results.length;i++){

75	System.out.println( "===========类别" +(i+ 1 )+ "================" );

76	List<Player>list=results[i];

77	for (Playerp:list){

78	System.out.println(p.getName()+ "--->"

79	+p.getGoal()+ "," +p.getAssists()+ ","

80	+p.getSteals()+ "," +p.getBackboard());

结果如下

这个里面涉及到相似度算法，事实证明欧几里得距离算法的实践效果是最优的。

最后说说kmeans算法的不足：可以看到只能针对数字类型的属性（维），对于其他类型的除非选定合适的数值度量

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航