大数据时代，数据信息的无处遁形

sxyyu

2019-11-04

大数据时代，数据信息的无处遁形

作者 | 数据与算法之美

数据挖掘，英文名叫Data mining，一般是指从大型数据库中将隐藏的预测信息抽取出来的过程，而更为精确的解释则是“从数据中挖掘知识”。

这个概念乍眼一看有点懵，小天举个栗子解释，相信就比较容易理解：

假如某东需要预测用户在未来5天内的购买需求，以达到精准营销的目的，那么此时完全可以借助数据挖掘实现。
通过数据挖掘技术和机器学习算法，在以某东真实的用户、商品和行为数据（脱敏后）为基础的情况下，构建一个用户购买商品的预测模型，输出高潜用户和目标商品的匹配结果，从而提供高质量的目标群体，实现精准营销。

也就是说，我们能够从海量的数据中挖掘出有用知识服务于我们的工作。

而就目前而言，数据挖掘大致上是可以分为四个层次：纯粹数据加工、傻瓜式挖掘、较为自由的挖掘以及算法拆解和开发。

大数据时代，数据信息的无处遁形

（一）纯粹数据加工

这一层次主要侧重于变量的加工和预处理，主要的加工工具就是大家比较熟悉的SQL和SAS base。

从源系统或数据仓库，对相关数据进行提取、加工、衍生处理，生成各种业务表。紧接着，以客户号为主键，将这些业务表整合汇总出一张大宽表，而这张宽表就是所谓的“客户画像”。

（二）傻瓜式挖掘

傻瓜式操作的优点就是让数据挖掘变得入手快且简单，但是，众所周知傻瓜式操作必然存在缺陷，比如挖掘的过程会很单调无趣，没办法批量运算模型等等。而较为典型的工具有SAS EM和clementine。

这两种工具已经嵌入了很多较为传统成熟的算法、模块和节点（如大家很熟悉的神经网络以及前几天小天提到的决策树等）。只需鼠标的托拉拽，基本上就可以满足你挖掘数据的需求。

因此，在熟练操作这些工具的情况下，若想进一步提升建议需要抛弃它们。

（三）较为自由的挖掘

在这个层次，典型的工具就是R和Python这两个开源工具，前者是统计学家开发的，而后者则是计算机学家开发的。

它们不但有较多前沿且成熟的算法包调用，还能对既有的算法包进行修改调整，以适应分析需求，十分的灵活。此外，Python在文本、社会网络方面的处理，功能比较强大。

（四）算法拆解和自行开发

到了这一层次，说明你们已经拥有了重新编写算法代码的能力，比如用自己的代码实现逻辑回归运算过程，甚至根据业务需求和数据特点，更改其中一些假定和条件，以提高模型运算的拟合效果。

[](https://upload-images.jianshu...

一般而言，大多数人会利用python、c、c++进行算法拆解和开发。

可以看到，四个层次中出现最多的就是python，因此可以这么说掌握了python，掌握数据挖掘也就不在话下了！

而根据当前互联网的招聘和对技能的需求来说，当你已经顺利度过前三个层次的时候，建模分析师的职位是妥妥的，如果再更进一步到达了第四层次，相信你就是当之无愧的算法工程师了！

大数据时代，数据信息的无处遁形

那么，怎么才能更好地掌握数据挖掘，最高效的学习路径应该是什么样的呢？

此时，我们最先要做的就是了解数据挖掘的大致流程。

（一）数据读取

既然是叫数据挖掘，那么可以看出数据是重中之重，因此第一步就应该把数据读取出来。

（二）特征理解分析

数据读出来了，但并不代表这些数据都是有用的，因此需要根据数据的特征进行理解和分析，考虑变量与结果的关系，最后绘图得出结论，辅助判断，进而选出有价值的数据。

（三）数据清洗与预处理

选出了有价值的数据就可以马上建立模型了吧？别想太多，还得先清洗和预处理数据。虽然这一步看似很简单，但是实际上它是整个数据挖掘过程中最耗时的，大概占了70-80%的时间。

如何对数据进行恰当的处理使得最终能够获取最合适的数据是这一步需要解决的。请记住，数据决定了模型的上限。

（四）建立模型

完成了最重要的第三步之后，就可以开始建模了，通过多种算法的对比以及参考他人的策略进行建模与优化，最终得出合适的模型。

大数据数据挖掘算法

sxyyu

0 关注 0 粉丝 0 动态

相关推荐

5个开源数据挖掘工具，收下这波干货

数据挖掘是从大量数据中提取隐藏的或未知，但可能有用信息的过程。尤其在机器学习中，数据挖掘是十分重要的一环。今天给大家介绍5个开源数据挖掘工具，收下这波干货吧。Weka是用Java编写的，可以在大部分平台上运行，是一种开源机器学习软件，能通过图形用户界面，标

小小梦想家 2020-09-26

在Python中使用KNN算法处理缺失的数据

处理缺失的数据并不是一件容易的事。方法的范围从简单的均值插补和观察值的完全删除到像MICE这样的更高级的技术。解决问题的挑战性是选择使用哪种方法。今天，我们将探索一种简单但高效的填补缺失数据的方法-KNN算法。KNN代表" K最近邻居"

scuyxi 2020-10-25

不用SMOTE算法，我们如何处理多类不平衡数据？

机器学习中的一个常见问题是处理不平衡数据，其中目标类中比例严重失调，存在高度不成比例的数据。如果不能处理好这个问题，模型将会成为灾难，因为使用类不平衡数据建模会偏向于大多数类。处理不平衡数据有不同的方法，最常见的是过采样和创建合成样本。SMOTE是一种从数

FromCybertron 2020-10-06

docker容器与宿主机的数据交互方式总结

在生产环境中使用 Docker ，往往需要对数据进行持久化，或者需要在多个容器之间进行数据共享，这必然涉及容器的数据管理操作。docker cp :用于容器与主机之间的数据拷贝。当删除Docker容器，并通过该镜像重新启动时，之前的更改将会丢失。在Dock

yangkang 2020-11-09

分布式文档存储数据库之MongoDB备份与恢复的实践详解

　　为什么要备份？　　备份的目的是对数据做冗余的一种方式，它能够让我们在某种情况下保证最少数据的丢失；之前我们对mongodb做副本集也是对数据做冗余，但是这种在副本集上做数据冗余仅仅是针对系统故障或服务异常等一些非人为的故障发生时，保证数据服务的可用性；

lbyd0 2020-11-17

分布式文档存储数据库之MongoDB分片集群的问题

　　1、什么是分片？比如用户要查询年龄大于30的用户，该怎么查询呢？而年龄大于30的用户的数据，可能server1上有一部分数据，server2上有部分数据，我们怎么才能够把所有满足条件的数据全部查询到呢？

sushuanglei 2020-11-12

详解Vue数据驱动原理

Vue区别于传统的JS库，例如JQuery，其中一个最大的特点就是不用手动去操作DOM，只需要对数据进行变更之后，视图也会随之更新。比如你想修改div#app里的内容:. 在代码层面上的最大区别就是，JQuery直接对DOM进行了操作，而Vue则对数据进行

85477104 2020-11-17

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

随着前端技术的飞速发展，大数据时代的来临，我们在开发项目时越来越多的客户会要求我们做一个数据展示的大屏，可以直观的展示用户想要的数据，同时炫酷的界面也会深受客户的喜欢。大屏展示其实就是一堆的图表能够让人一目了然地看到该系统下的一些基本数据信息的汇总，也会有

KANSYOUKYOU 2020-11-16

THINKPHP5分页数据对象处理过程解析

在用到THINKPHP5的分页的时候，我们可以发现获取的数据是对象，如果我们要对数据进行循环增加数据就实现不了。V5.0.9版本开始支持分页类后数据直接each遍历处理，方便修改分页后的数据，而不是只能通过模型的获取器来补充字段。

wushengyong 2020-10-28

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 2020-11-13

人工智能技术如何落地交通出行？

在城市交通领域，有AI红绿灯控制，街道交通智能监测、智能公交车站，以及智能高速，这些领域都已经渗透了人工智能。围绕自动驾驶和车路协同也已经在全国多个地区进入商用测试阶段。那么日常还有哪些出行场景是应用到了AI技术的呢?大大降低了人工运营维护成本，人工审核降

星月情缘 2020-11-13

将云技术带入数据中心-走向数据驱动型业务的旅程

COVID-19产生的大量数据正在为企业创造新的增长机会，但拥有合适的基础设施对于有效应对这场数据风暴至关重要。Gartner最近警告说：“数据和分析领导者必须为多云和跨云部署的复杂性做好准备，以避免潜在的性能问题、计划外的成本超支和集成工作中的困难”。负

huangxiaoyun00 2020-11-13

联想持续发力智能物联，构建新基建时代下的行业新引擎

联想Tech World 2020创新科技大会于今日开幕。

zhoushuntian 2020-11-09

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 2020-11-08

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

今日获悉，国际领先行业咨询机构Forrester发布《2020年Q4中国全栈公有云开发平台Wave报告》显示，腾讯云再次入选公有云开发平台领导者象限。在2018年同主题报告中，腾讯云也曾入选。本次报告通过33项评估标准，针对中国市场最具代表性的12个厂商进

腾讯soso团队 2020-11-06

雾计算在物联网中的应用

雾计算是指一种分散的计算结构。资源被放置在数据源和云之间的逻辑位置。雾计算的优点之一是可以在同一时间上维持多用户连接的状态。本质上，它提供了与基于云的解决方案相同的网络和服务，但是它增加了分散网络的安全性。随着物联网的发展，越来越多的设备被添加到网络中。据

Apsaravod 2020-11-05

AI格局正在从“数据”转变为“知识”

半个多世纪以前就引发了人工智能革命。我们看到的最常见的AI业务策略是围绕数据构建的。我们认为专有数据是AI公司目前很具战略意义的护城河，但在未来几年中，专有数据将不再是一种独特的资产，从而使专有数据差异化的可持续性降低。因此，我们希望重点从基于数据的AI策

PeterChangyb 2020-11-05

SAP AMDP介绍 - ABAP托管的HANA数据库过程

最近Jerry的处境可以用本世纪初，八零后刚上大学时校园内风靡的一款FPS游戏名称来形容: 《半条命》. 为了避免让汪子熙这个公众号成为神经外科前中颅底亚专业医学知识的普及号，咱们还是继续聊SAP技术吧。随着ABAP 7.40 SP05的发布，SAP AB

gaobudong 2020-11-04

数据骗子无处不在，教你拆穿所谓“万金油”

数据分析师、机器学习/人工智能工程师、统计学家，这样的头衔是不是听起来很高大上?但小心别被骗了!高薪诱惑之下，不少数据骗子也隐藏在其中，这些骗子毁了遵纪守法的数据专业人士的好名声。第一点线索就是，他们无法理解分析学和统计学是两个截然不同的学科。这样的p值没

wwwjun 2020-11-02

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中的数据偏差是一种错误，其中数据集的某些元素的权重和/或表示程度高于其他元素。偏置数据集不能准确表示模型的用例，从而导致结果偏斜、精度低和分析错误。通常，机器学习项目的培训数据必须代表现实世界。数据偏差可能发生在一系列领域，从人类报告和选择偏差到算

gyunwh 2020-11-02

sxyyu

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号