机器学习、数据科学和数据挖掘中的数据集类型

huzai

2019-09-07

关注关注

作者：Tarun Gupta
翻译：疯狂的技术宅
https://towardsdatascience.co...
未经允许严禁转载

数据集有三个一般特征，即：维度，稀疏度，和分辨率。接下来我们将讨论它们究竟是什么意思。

什么是维度？

→数据集的维度是数据集中对象所具有的属性的数量。

在特定数据集中，如果存在大量属性（也称为高维度），则可能很难分析这样的数据集。当遇到这个问题时，它被称为维度的诅咒。

为了理解维度的诅咒到底是什么，我们首先需要了解数据的另外两个特征。

什么是稀疏？

→对于某些数据集，例如具有非对称特征的数据集，其对象的大多数属性值为 0；在通常情况下，只有不到 1％的条目是非零的，这样的数据称为稀疏数据或者可以说数据集具有稀疏性。

什么是分辨率？

→数据中的模式取决于分辨率级别。如果分辨率太细，则模式可能会不可见或有可能被埋没在噪声中；如果分辨率太粗糙，模式可能会消失。例如大气压力变化反映了风暴和其他天气系统的运动。在几个月的时间里，这种现象是无法察觉的。

现在，回到维度的诅咒，这意味着随着数据集维度（数据集中的属性数量）的增加，许多类型的数据分析变得困难。具体而言，随着维数的增加，数据在其占据的空间中变得越来越稀疏。对于分类，这可能意味着没有足够的数据对象来允许创建可靠的分类模型。

最后，来看数据集的类型，我们将它们定义为三个类别，即记录数据，基于图的数据和有序数据。

记录数据

机器学习、数据科学和数据挖掘中的数据集类型

→数据挖掘工作的大部分假定数据是记录（数据对象）的集合。

→记录数据的最基本形式是在记录或数据字段之间没有明确的关系，并且每个记录（对象）都具有相同的属性集。记录数据通常存储在文件或关系数据库中。

记录数据有一些具有某些特征属性的变体，。

交易或市场篮子数据：这是一种特殊类型的记录数据，其中每个记录包含一组项目。例如在超市或杂货店购物。对于任何特定客户，记录将包含客户购买的一组物品。这种类型的数据称为市场篮子数据。交易数据是一组项目集合，但它可以被视为一组记录，其字段是非对称属性。通常属性是二进制的，表示是否购买了商品。
数据矩阵：如果数据集中的数据对象都具有相同的固定数值属性集，那么数据对象可以被认为是多维空间中的点（向量），其中每个维度表示描述对象的不同属性。一组这样的数据对象可以被解释为 m×n 矩阵，其中有 n 行 m 列，每行一个对象，每列一个属性。可以用标准矩阵运算来转换和操纵数据。因此数据矩阵是大多数统计数据的标准数据格式。
稀疏数据矩阵：稀疏数据矩阵（有时也称为文档 - 数据矩阵）是数据矩阵的一种特殊情况，其中属性是相同的类型，而且是不对称的；即，只有非零值才很重要。

基于图的数据

机器学习、数据科学和数据挖掘中的数据集类型

这可以进一步分为几种类型：

对象间关系的数据：数据对象映射到图的节点，而对象之间的关系由对象和链接属性之间的链接表示，例如方向和权重。比如互联网上的网页，其中包含文本和其指向他页面的链接。为了处理搜索查询，Web 搜索引擎爬取并处理网页来提取其内容。
具有图对象的数据：如果对象具有结构，即对象中包含具有关系的子对象，则此类对象通常表示为图。例如，化学化合物的结构可以用图表示，其中节点是原子，节点之间的链接是化学键。

有序数据

机器学习、数据科学和数据挖掘中的数据集类型

对于某些类型的数据，属性具有涉及时间或空间顺序的关系。正如你在上图中所看到的，它可以分为四种类型：

顺序数据：也称为时间数据，可以被认为是记录数据的扩展，其中每个记录都有一个与之相关的时间。比如零售交易数据集，该数据集还存储交易发生的时间
序列数据：序列数据由数据集组成，该数据集是单个实体的序列，例如单词或字母序列。它与顺序数据非常相似，只是没有时间戳；相反，有序序列中存在位置。例如，植物和动物的遗传信息可以用基因的核苷酸序列的形式表示。
时间序列数据：时间序列数据是一种特殊类型的有序数据，其中每个记录是一个时间序列，即随时间进行的一系列测量。例如，财务数据集可能包含各种股票的每日价格的时间序列的对象。
空间数据：某些对象具有空间属性，例如位置或区域，还有其他类型的属性。空间数据的例子是针对各种地理位置收集的天气数据（降水，温度，压力）。

本文首发微信公众号：硬核智能

机器学习、数据科学和数据挖掘中的数据集类型

机器学习数据挖掘大数据维度

安科网

机器学习、数据科学和数据挖掘中的数据集类型

huzai

什么是维度？

什么是稀疏？

什么是分辨率？

记录数据

基于图的数据

有序数据

本文首发微信公众号：硬核智能

huzai

相关推荐

需要知识的后深度学习时代，如何高效自动构建知识图谱

数据科学面试中应了解的十种机器学习概念

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

huzai