K均值(K-MEANS)

路漫

2020-05-30

关注关注

Kmeans是一种简单的聚类方法，一般在数据分析前期使用，选取适当的k，将数据分类后，然后分类研究不同聚类下数据的特点。

算法原理

kmeans的计算方法如下：

　　1 随机选取k个中心点；

　　2 遍历所有数据，将每个数据划分到最近的中心点，作为一个簇；

　　3 计算每个聚类的平均值，并作为新的中心点；

　　4 重复2-3，直到这k个中心点不再变化（收敛），或执行了足够多的迭代。

轮廓系数

轮廓系数（Silhouette Coefficient）结合了聚类的凝聚度（Cohesion）和分离度（Separation），用于评估聚类的效果。该值处于-1~1之间，值越大，表示聚类效果越好。具体计算方法如下：

　　1 对于第i个元素x_i，计算x_i与其同一个簇内的所有其他元素距离的平均值，记作a_i，用于量化簇内的凝聚度。

　　2 选取x_i外的一个簇b，计算x_i与b中所有点的平均距离，遍历所有其他簇，找到最近的这个平均距离,记作b_i，用于量化簇之间分离度。

　　3 对于元素x_i，轮廓系数s_i = (b_i – a_i)/max(a_i,b_i) 计算所有x的轮廓系数，求出平均值即为当前聚类的整体轮廓系数

从上面的公式，不难发现若s_i小于0，说明x_i与其簇内元素的平均距离小于最近的其他簇，表示聚类效果不好。如果a_i趋于0，或者b_i足够大，那么s_i趋近与1，说明聚类效果比较好。

注意点

　　1 随机初始化的中心点可能会影响聚类结果，可以多次聚类选择较优的聚类结果。

　　2 K值的选取直接影响聚类簇数。

如何选取合适的K值

　　1 最常用最简单的方法可视化数据，然后观察出聚类聚成几类比较合适，高维数据可视化困难。

　　2 令k从2到一个固定值如10，在每个k值上重复运行数次kmeans(避免局部最优解)，并计算当前k的平均轮廓系数，最后选取轮廓系数最大的值对应的k作为最终的集群数目。

Kmeans算法优缺点

　　优点：1 对于类似球形簇的数据集，聚类效果明显；2 收敛速度较快，时间复杂度O(tkn) t为迭代次数 k中心点个数 n数据量；

　　缺点：1 K值难以确定；2 初始点不合适，可能陷入局部最优的聚类结果；3 对噪点敏感（更新中心点使用均值，均值对噪声敏感）；4 对于不规则的簇，kmeans聚类结果差。

参考：https://www.cnblogs.com/bourneli/p/3645049.html

2020-05-30 11:22

聚类 kmeans k-means算法

路漫

0 关注 0 粉丝 0 动态

关注关注

K-均值聚类（k-means）算法

model_kmeans=KMeans #建立聚类模型对象。colors=['#4EACC5','#FF9C34','#4E9A06'] #设置不同类别的颜色。plt.scatter #展示聚类子集内的样本点。plt.plot #展示各聚类子集的

从早忙到晚的闲人 2020-04-13

算法 - k-means++

Kmeans++算法，主要可以解决初始中心的选择问题，不可解决k的个数。Kmeans++主要思想是选择的初始聚类中心要尽量的远。

Happyunlimited 2019-11-09

k-means聚类算法原理简析

K-means算法是最普及的聚类算法，也是一个比较简单的聚类算法。算法接受一个未标记的数据集，然后将数据聚类成不同的组，同时，k-means算法也是一种无监督学习。那么用k-means算法来解决这个问题会是怎样的呢？完全没有人为的让他进行分类的学习，也没有

horizonheart 2020-07-05

数据建模（）-K-means聚类算法

K-Means算法是典型基于距离的非层次聚类算法，在最小化误差函数的基础上将数据划分为预定的类数K，采用作为相似性的评价指标，即认为2个对象的距离越近，其相似度越大。对连续属性，要先对各属性值进行零-均值规范，再进行距离计算。K-Means聚类算法中，一般

路漫 2020-01-23

【机器学习】k-means算法原理自实现

from sklearn.cluster import KMeans # 导入k-means. # 获取数据的行数。# # 随机选择一行所有的数据作为一个中心。# 先初始化一个全为0 的聚类中心。# 设计列表来退出循环。# 设计一个计数器来给聚类

lixiaotao 2019-12-29

k-means和iosdata聚类算法在生活案例中的运用

所以，本篇博客主要是对生活中的案例，运用k-means算法和isodata聚类算法进行数据评价和分析。本文是对“中国男足近几年在亚洲处于几流水平？”的问题进行分析。按照样本之间的距离大小，将样本集划分为K个簇。

lixiaotao 2019-10-28

聚类分析（二） K-MEANS

算法属于划分方法中的一种。是利用距离来量化相似度的，所以我们这里可以理解为是“将它们指定到离最近最近距离的质心所属类簇”）。然后重新计算质心位置。以上过程不断反复，直到准则函数收敛为止。通常采用平方误差准则，定义如下：。代表的意思是所有类簇中各对象到其所属

Oudasheng 2012-12-27

R语言聚类分析：k-means和层次聚类

尽管我个人非常不喜欢人们被划分圈子，因为这样就有了歧视、偏见、排挤和矛盾，但“物以类聚，人以群分”确实是一种客观的现实——这其中就蕴含着聚类分析的思想。前面所提到的机器学习算法主要都是分类和回归，这两类的应用场景都很清晰，就是对分类型变量或者数值型变量的预

JueryLee 2019-06-28

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 2020-11-11

转录组数据分析思路

转录组紧紧围绕基因表达量和功能分析两部分，结合生物学问题来进行数据分析。高表达基因已经研究比较透彻，应该更多关注中低表达基因。功能富集分析不应过多关注显著P值，功能通路作为一个整体，不应排除差异非显著的基因作用。根据功能来推测生物学过程，需要经验，如胞外信

Fredreck 2020-07-19

大数据分析领域模型有哪些

数据角度的模型一般指的是统计或数据挖掘、机器学习、人工智能等类型的模型，是纯粹从科学角度出发定义的。因此，我们需要降低维度数量并降低维度间共线性影响。　　数据降维也被成为数据归约或数据约减，其目的是减少参与数据计算和建模维度的数量。　　回归是研究自变量x对

swazerz 2020-06-04

有了K均值聚类，为什么还需要DBSCAN聚类算法？

聚类本文转载自公众号“读芯术”分析是一种无监督学习法，它将数据点分离成若干个特定的群或组，使得在某种意义上同一组中的数据点具有相似的性质，不同组中的数据点具有不同的性质。聚类分析包括基于不同距离度量的多种不同方法。2014年，DBSCAN算法在领先的数据挖

只能做防骑 2020-05-13

11.分类与监督学习，朴素贝叶斯分类算法

简述分类与聚类的联系与区别。　　　分类简单来说，就是根据文本的特征或属性，划分到已有的类别中。聚类不需要对数据进行训练和学习。有监督学习即人工给定一组数据，每个数据的属性值也给出，对于数据集中的每个样本，我们想要算法预测并给出正确答案：回归问题，分类问题

horizonheart 2020-05-09

11.分类与监督学习，朴素贝叶斯分类算法

　　　　　　聚类是将一系列点分成若干类，事先是没有类别的，常用算法是K-Means算法，是一种无监督学习。　　② 无监督学习：缺乏足够的先验知识；在数据中发现一些规律；任务是聚类和降维。利用关于心脏病患者的临床历史数据集，建立朴素贝叶斯心脏病分类模型。

wonner 2020-05-09

R语言绘图——层次聚类图及树状图添加side bar

聚类分析作图往往包含热图和树状图。热图用来展示每个样本点数值大小和聚集模式。树状图用来表示样本之间以及变量之间的距离远近。R官网目前提供了至少45个可以绘制热图的包，其中比较常见的、可以添加行列注释信息条的聚类作图包有pheatmap、gplots等等。以

NVEFLY 2020-04-19

Cluster Analysis in Python

Normalize a group of observations on a per feature basis.# Use the whiten() function to standardize the data. # Check mean and s

Yiyang 2020-03-03

请别再把深度学习与机器学习混为一谈了！

机器学习算法通常分为：监督和非监督两种。监督式机器学习又可以进一步被分为：分类和回归。无监督学习则可以进一步分为：聚类、关联、以及降维。它需要在两个或多个类之间进行选择，并最终为每一个类分配概率。显然，在回归和分类的机器学习算法之间有一定的重叠度。聚类问题

sayhaha 2020-02-05

机器学习——谱聚类

　　具有在任意形状的样本空间上聚类并且收敛于全局最优解的优点。　　通过对样本数据的拉普拉斯矩阵的特征向量进行聚类，从而达到对样本数据进行聚类的目的;其本质是将聚类问题转换为图的最优划分问题，是一种点对聚类算法。基于图的最优划分规则就是子图内的相似度最大，子

kingzone 2020-01-01

监督学习与非监督学习

是有特征和标签的，即便是没有标签的，机器也是可以通过特征和标签之间的关系，判断出标签。监督学习是通过训练让机器自己找到特征和标签之间的联系，在以后面对只有特征而没有标签的数据时可以自己判别出标签。相当于给定数据，预测标签。常见的有监督学习算法：回归分析和统

sxyhetao 2019-12-14

聚类算法总结以及python代码实现

使同一类对象的相似度尽可能地大；不同类对象之间的相似度尽可能地小。层次聚类算法实际上分为两类：自上而下或自下而上。因此，自下而上的层次聚类称为合成聚类或HAC。将两个聚类合并为具有最小平均连接的组。此外，该算法对距离度量的选择不敏感;它们的工作方式都很好，

wuxiaosi0 2019-12-06

安科网

K均值(K-MEANS)

路漫

算法原理

轮廓系数

注意点

如何选取合适的K值

2020-05-30 11:22

路漫

相关推荐

K-均值聚类（k-means）算法

算法 - k-means++

k-means聚类算法原理简析

数据建模（）-K-means聚类算法

【机器学习】k-means算法原理自实现

k-means和iosdata聚类算法在生活案例中的运用

聚类分析（二） K-MEANS

R语言聚类分析：k-means和层次聚类

无监督机器学习的重要指南

转录组数据分析思路

大数据分析领域模型有哪些

有了K均值聚类，为什么还需要DBSCAN聚类算法？

11.分类与监督学习，朴素贝叶斯分类算法

11.分类与监督学习，朴素贝叶斯分类算法

R语言绘图——层次聚类图及树状图添加side bar

Cluster Analysis in Python

请别再把深度学习与机器学习混为一谈了！

机器学习——谱聚类

监督学习与非监督学习

聚类算法总结以及python代码实现

路漫