数据挖掘--K-means

muyurenzheng

2019-12-02

关注关注

K-Means方法是MacQueen1967年提出的。给定一个数据集合X和一个整数K（?n），K-Means方法是将X分成K个聚类并使得在每个聚类中所有值与该聚类中心距离的总和最小。

K-Means聚类方法分为以下几步：

[1] 给K个cluster选择最初的中心点，称为K个Means。

[2] 计算每个对象和每个中心点之间的距离。

[3] 把每个对象分配给距它最近的中心点做属的cluster。

[4] 重新计算每个cluster的中心点。

[5] 重复2，3，4步，直到算法收敛。

以下几张图动态展示了这几个步骤：

数据挖掘--K-means

下面，我们以一个具体的例子来说明一下K-means算法的实现。

数据挖掘--K-means

K-means算法的优缺点：

优点：

（1）对于处理大数据量具有可扩充性和高效率。算法的复杂度是O（tkn），其中n是对象的个数，k是cluster的个数，t是循环的次数，通常k，t<<n。

（2）可以实现局部最优化,如果要找全局最优，可以用退火算法或者遗传算法

缺点：

（1）Cluster的个数必须事先确定，在有些应用中，事先并不知道cluster的个数。

（2）K个中心点必须事先预定，而对于有些字符属性，很难确定中心点。

（3）不能处理噪音数据。

（4）不能处理有些分布的数据（例如凹形）

K-Means方法的变种

(1) K-Modes ：处理分类属性

(2) K-Prototypes：处理分类和数值属性

(3) K-Medoids

它们与K-Means方法的主要区别在于：

（1）最初的K个中心点的选择不同。

（2）距离的计算方式不同。

（3）计算cluster的中心点的策略不同。

数据挖掘 k-means 大数据数据挖掘算法 k-means算法

muyurenzheng

0 关注 0 粉丝 0 动态

关注关注

5个开源数据挖掘工具，收下这波干货

数据挖掘是从大量数据中提取隐藏的或未知，但可能有用信息的过程。尤其在机器学习中，数据挖掘是十分重要的一环。今天给大家介绍5个开源数据挖掘工具，收下这波干货吧。Weka是用Java编写的，可以在大部分平台上运行，是一种开源机器学习软件，能通过图形用户界面，标

小小梦想家 2020-09-26

开源数据挖掘工具，有这6个就足够

数据在当今世界意味着金钱，随着向基于App的世界的过渡，数据呈指数增长。今天给大家介绍6个开源数据挖掘工具，有需要的朋友可以自取，有更好用的工具也欢迎交流。该平台是Python、Ruby、Groovy等各种脚本语言的组合，还有其他Java软件包。ELKI用

YeChao 2020-08-04

8个优秀的数据挖掘工具

使用python的开发人员都少不了数据挖掘工具，因为一般来说，能否充分利用数据，取决于是否有合适的工具来清理、准备、合并并正确分析。今天小编介绍8个优秀的数据挖掘工具，感兴趣的小伙伴可以收藏。Scikit-Learn是很优秀的机器学习python库，能够提

ZweixunSJTU 2020-07-28

数据挖掘----推荐算法(CF)

User-Based CF 计算user与user的相似度矩阵。- 具有相似兴趣的用户在未来也具有相似兴趣。- 将N 喜欢的物品推荐给用户。

风吹夏天 2020-07-26

实验2：基于Weka的数据挖掘程序设计

在掌握基于Weka工具的数据挖掘应用的基础上，实现基于Weka API的数据挖掘程序设计。在Eclipse中建立一个新的Java工程，用于放置实验程序的源代码。编程请遵循Java编程规范。读取“电费回收数据.csv”。将数值型字段规范化至[0,1]区间。调

clouderyu 2020-07-17

大数据开发？大数据分析？数据挖掘算法？

　　关于大数据的知识，因为自己之前做大创、听讲座以及主动地去踩学习的坑，所以关于学习和规划我可以给予一些经验。总之很多因素让我做出了选择大数据的决定。我是今年2月份上手的大数据开发路线，零零碎碎学了很多理论知识，最近有时间才搭建Linux虚拟机来实现部分代

clouderyu 2020-05-27

数据挖掘竞赛利器-Stacking和Blending方式

一.Stacking思想简介1.Stacking的思想是一种有层次的融合模型，比如我们将用不同特征训练出来的三个GBDT模型进行融合时，我们会将三个GBDT作为基层模型，在其上在训练一个次学习器,用于组织利用基学习器的答案，也就是将基层模型的答案作为输入，

clouderyu 2020-04-08

数据挖掘入门系列教程（二）之分类问题OneR算法

在上一篇博客中，我们通过分析亲和性来寻找数据集中数据与数据之间的相关关系。这篇博客我们会讨论简单的分类问题。分类问题，顾名思义我么就是去关注类别这个变量。分类应用的目的是根据已知类别的数据集得到一个分类模型，然后通过这个分类模型去对类别未知的数据进行分类。

xiaoxiaoCNDS 2020-03-09

数据分析的一些概念

例如利用数据预测用户购物行为属性商业智能。十大算法之首，决策树算法，特点包括：1.构造过程中剪枝 2.处理连续属性；3.处理不完整的数据。用户兴趣、用户活跃度、产品购买偏好、用户关联关系、用户满意度、渠道使用偏好、支付使用偏好、优惠券偏好

小小梦想家 2020-02-01

「数据挖掘入门系列」数据挖掘模型之分类和预测 - 逻辑回归

如果基于商品的历史销售情况，以及节假日、气候、竞争对手等影响因素，对商品的销量进行趋势预测？除此之外，运营部门需要通过数据分析来了解具有某些特征的客户的消费习惯，管理人员希望了解下一个月的销售收入等，这些都是分类与预测的日志。分类和预测是预测问题的两种主要

chognzhihongseu 2020-01-30

数据挖掘基础

伴随着信息化系统建设的发展，各行各业的中大型企业都存储了大量的业务数据。大部分的企业，都是凭借管理人员的自身个人经验来开展这项工作。如果有一套系统，能够自动地或者半自动地发现相关的知识和解决方案，这样将会有效地提高企业的决策水平和竞争能力。通过数据挖掘可以

小小梦想家 2020-01-29

数据挖掘--模型挖掘之聚类

主要思想是把数据对象排列成一个聚类树，在需要的层次上对其进行切割，相关联的部分构成一个cluster。把多维数据空间划分成一定数目的单元，然后在这种数据结构上进行聚类操作。该类方法的特点是它的处理速度，因为其速度与数据对象的个数无关，而只依赖于数据空间中

clouderyu 2019-12-03

Python数据挖掘与机器学习技术入门实战

数据挖掘指的是对现有的一些数据进行相应的处理和分析，最终得到数据与数据之间深层次关系的一种技术。具体来说，超市的货品摆放问题可以划分为关联分析类场景。一言以蔽之，凡是让机器通过我们所建立的模型和算法对数据之间的关系或者规则进行学习，最后供我们利用的技术都是

santiago00 2019-11-21

终于有人把数据、信息、算法、统计、概率和数据挖掘都讲明白了！

一些朋友会在稍作思考后回答“数字和字符、字母，这些都是数据”。不知道你现在是不是正在纠结哪个回答更正确，亦或第二个回答更合理一些，我们先放一放。大家不要以为算法全都是算法工程师的事情，跟普通的程序员或者分析人员无关，算法说到底是对处理逻辑理解的问题。这一点

小小梦想家 2019-11-14

大数据架构详解：从数据获取到深度学习

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其专门研究计算机是怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构，使之不断改善自身的性能。此外，数据挖掘和机器学习有很大的交集。本文将从

datongmuyile 2019-11-04

数据挖掘10大算法(1)——PageRank

文章的重点将偏向于算法的来源以及算法的主要思想，不涉及具体的实现。如果发现文中有错，希望各位指出来，一起讨论。在这些算法中，最引人注目的自然是Google的核心技术之一——PageRank。因此本系列就先来探索PageRank的诞生过程。PageRank的

Oudasheng 2013-05-17

谈如何学好数据挖掘

下面是一位朋友的问题，其实每天都有不少同学和朋友向我提问各种学习数据分析、数据挖掘、统计分析等方面的问题，有时候真的很难仔细回答。其实，每个人都有自己的学习路径，还有自己的知识结构和期望的职业生涯，要得到一个统一的答案是困难的！什么是解决问题：就是在明确实

muyurenzheng 2013-03-18

简单生活第一步：数据科学家该了解的4个Python自动库

机器学习是一个新兴领域，其中用来建模数据的机器学习模型是一个自动化的过程，AutoML的功能使建模更为轻松。如果对AutoML感兴趣，笔者向你推荐以下4个必学的Python库。auto-sklearn是一个自动机器学习工具包，无缝集成业内许多人都熟悉的标准

黄刚的技术 10评论 2020-10-13

如何自学成为数据科学家或AI工程师？你需要攻克这九点

并非每个人都有时间在教室里学习数据科学、人工智能或机器学习，也并非每个人都能负担得起正式学习这些领域知识所需要的费用。那我们应该怎么办呢？软件开发者、机器学习工程师 Jerry Buaba 提供了一条自学路径。自学是一门艺术，需要足够的自律、勤奋和专注。然

inabaraku 2020-07-22

机器学习工程师与数据科学家的大斗法

随着人工智能的发展，市场上出现了一些新的工作岗位。但对于这些新兴领域的新兴职业，我们很多人难以分辨其间的不同之处，尤其是机器学习工程师和数据科学家的作用有何区别，这很令人困惑。机器学习工程师则将数据视为必须接收并能以某种适当的形式高效输出的东西。当谈论Ne

xceman 2020-07-19

安科网

数据挖掘--K-means

muyurenzheng

muyurenzheng

相关推荐

5个开源数据挖掘工具，收下这波干货

开源数据挖掘工具，有这6个就足够

8个优秀的数据挖掘工具

数据挖掘----推荐算法(CF)

实验2：基于Weka的数据挖掘程序设计

大数据开发？大数据分析？数据挖掘算法？

数据挖掘竞赛利器-Stacking和Blending方式

数据挖掘入门系列教程（二）之分类问题OneR算法

数据分析的一些概念

「数据挖掘入门系列」数据挖掘模型之分类和预测 - 逻辑回归

数据挖掘基础

数据挖掘--模型挖掘之聚类

Python数据挖掘与机器学习技术入门实战

终于有人把数据、信息、算法、统计、概率和数据挖掘都讲明白了！

大数据架构详解：从数据获取到深度学习

数据挖掘10大算法(1)——PageRank

谈如何学好数据挖掘

简单生活第一步：数据科学家该了解的4个Python自动库

如何自学成为数据科学家或AI工程师？你需要攻克这九点

机器学习工程师与数据科学家的大斗法

muyurenzheng