聚类分析（二） K-MEANS

Oudasheng

2012-12-27

K-means算法

一般情况，聚类算法可以划分为以下几类：划分方法（partitioning method）、层次方法（hierarchicalmethods）、基于密度的方法（density-based methods）、基于网格的方法（grid-based methods）、基于模型的方法（model-based methods）.k-means算法属于划分方法中的一种。

K-means算法的整个流程：首先从聚类对象中随机选出K个对象作为类簇的质心（当然了，初始参数的K代表聚类结果的类簇数），对剩余的每个对象，根据它们分别到这个K个质心的距离，将它们指定到最相似的簇（因为K-means是利用距离来量化相似度的，所以我们这里可以理解为是“将它们指定到离最近最近距离的质心所属类簇”）。然后重新计算质心位置。以上过程不断反复，直到准则函数收敛为止。通常采用平方误差准则，定义如下：

其中，E代表的意思是所有类簇中各对象到其所属类簇质点平方误差和.

K:聚类结果类簇个数

Ci:第i个类簇

P：类簇中聚类对象

mi:第i个类簇的质心

K-means的优点和不足：能处理大型数据集，结果簇相当紧凑，并且簇和簇之间明显分离。计算复杂性O(tkn) t:迭代次数、K ：聚类数 n:样本数；但是

1）该算法必须事先给定类簇数和质点，簇数和质点的初始值设定往往会对聚类的算法影响较大。

2 ) 通常会在获得一个局部最优值时停止，

3 ) 并且只适合对数值型数据聚类，

4) 只适用于聚类结果为凸形的数据集，K-means方法不适合发现非凸面形状的类簇，或者大小差别很大的簇。

5) 对“噪音”和孤立点数据敏感，少量的该类数据对质点的计算会产生极大的影响。

关于K-means的代码实现网上有很多，java版的本人自己也实现了，有需要则可以留下MAIL。：）

聚类 k-means 层次聚类方法质心 k-means算法

安科网

聚类分析（二） K-MEANS

Oudasheng

Oudasheng

相关推荐

k-means聚类算法原理简析

数据建模（）-K-means聚类算法

【机器学习】k-means算法原理自实现

k-means和iosdata聚类算法在生活案例中的运用

opencv python K-Means聚类

R语言聚类分析：k-means和层次聚类

聚类算法总结以及python代码实现

数据挖掘--模型挖掘之聚类

K均值(K-MEANS)

K-均值聚类（k-means）算法

算法 - k-means++

无监督机器学习的重要指南

转录组数据分析思路

大数据分析领域模型有哪些

有了K均值聚类，为什么还需要DBSCAN聚类算法？

11.分类与监督学习，朴素贝叶斯分类算法

11.分类与监督学习，朴素贝叶斯分类算法

R语言绘图——层次聚类图及树状图添加side bar

Cluster Analysis in Python

请别再把深度学习与机器学习混为一谈了！

Oudasheng