数据科学界的背锅侠？

HappinessSourceL

2019-11-14

全文共5132字，预计学习时长10分钟

数据科学界的背锅侠？

这篇文章是关于分析学的HBR文章和TDS文章的二合一版本

在选择技能点时一定要注意，不明智的选择所带来的后果可能是灾难性的。除管理不善的团队和完全没必要的招聘，你要知道，真正的英雄正在不断提高自己来适应日新月异的需求。分析学就是很典型的一个例子。

数据科学界的背锅侠？

要招就招业务能力最强的

在数据科学界，业务能力强的员工很难招到，毋庸置疑，“全能型”选手在机器学习、统计学和分析学方面都是大师。如果团队中没有一个三合一的通才，只想着怎么吸引只精通一门学科的专才。想想谁能分到蛋糕呢？

如今，数据科学界比较青睐一些花哨的东西，会一点人工智能和机器学习在人才市场中非常抢手。维持了长达一个多世纪的优越性，现在统计学也是热门领域之一。那么，分析学呢？

数据科学界的背锅侠？

二等公民分析学

如果你最熟练的技能就是分析学（或者数据挖掘、商务智能），坚强一点，在前面提到的那些大佬高视阔步地超过你，招牌公司暗示你要提升自己技能的时候，你的自信心可能会遭受打击。

门外汉通常很难理解，数据科学分支下的三个领域相互之间完全不一样。即便是使用同样的公式，其共同点也仅此而已。比其它数据科学逊色一些的版本不同之处是，好的分析师是高效处理数据的必要条件。如果他们辞职弃你而去，这是一个很危险的信号。但如果你低估了员工的能力，这种情况肯定会发生。

数据科学界的背锅侠？

人人平等

别想着让分析师去学统计学或者机器学习的技能，先鼓励他们在自己的领域勇攀高峰。在数据科学这个行当，精通一个领域的知识比同时对好几个领域都一知半解要好得多。这三个领域各有优势。统计学家能保证工作有条不紊地进行，机器学习工程师能提高项目的性能，分析师能提高处理的速度。

如果能发挥出最大功效，这三个领域都值得一座奖杯，但其实他们所提供的服务完全不同。想要了解其中的玄妙之处，就得先知道在每个数据科学领域中，什么才叫真正的出类拔萃，各个领域能带来什么效益，要求从业者具备什么样的特质。

数据科学界的背锅侠？

统计学的精妙之处：严谨

除了在数据上提供专业意见外，统计学家还能帮助你在真实世界保持清醒。对他们来说，经过粗略推断做出的决定比完全不去推断罪过更深。所以好的统计学家能在你发挥天马行空想象的同时，及时把你拉回现实。常在河边走，统计学家非常关注应用方法的合理性，并且会绞尽脑汁地去证明用于数据的推断是否成立。

大部分人都意识不到，统计学家从本质上来说都是知识论者。既然从未知中创造已知是不可能的，统计学家扮演的角色不是编造事实，而是就现有信息进行同类项合并。

结果就是，统计学家能控制风险，为决策者提供新思路。

毫无疑问，很多统计学家对非科班出身的创业者嗤之以鼻。如果觉得统计学家们很难缠，不妨试试这个小技巧：不要瞎总结数据范围之外的东西，你并不需要它们的帮助。（说起来容易做起来难，对吧？特别是在重要项目需要做出决定的时候。）

机器学习的精妙之处：性能

大部分应用机器学习／人工智能工程师对“我打赌你肯定不能建造一个通过率为99.99999%的模型”的反应是“走着瞧吧”。经历了不断建立能正常运行的模型和产品系统，每小时失败一次，几十年如一日天天如此的倔强，机器学习专家知道不可能在课本上找到解决方案。于是，他们会不断进行马拉松式的试错。凭着良好的直觉，他们知道尝试新的方案会有很大的收获，比只知道一堆关于算法的知识好多了（当然两者兼备更好）。

数据科学界的背锅侠？

“我能行我可以。”——工程师如是说

然后，你就能得到一个既能顺利解决复杂问题，又能顺利通过统计学家的严格测试标准，还能出色地完成任务的精密系统。

出色的性能不仅仅是意味着清除缓存，还表示着可靠、可测量且更容易维护的模型，在生产的过程中表现得更好。工程中的超凡卓越必不可少。

广度vs深度

前面两个角色的共同点在于，他们都能为具体的问题提供高效的解决方案。如果某个问题根本就没有去解决的价值，那大可以及时收手，免得浪费时间和金钱。企业家经常说：“我们的数据科学部根本就没用。”，然而问题通常源于缺乏合理分析。

数据科学界的背锅侠？

统计学家和机器学习工程师眼界比较“狭隘”（类似兔子洞），所以你应该直接告诉他们问题在哪。如果团队里的专家关注点都是错的，你在数据科学方面的投资肯定收效甚微。为了将数据科学团队的作用最大化，要么你自己心里已经清楚了哪些是亟待解决的问题，要么你需要通过广撒网来找到问题所在。

分析学的精妙之处：速度

顶尖分析师编程的速度非常快，能很快浏览体量庞大的数据库，他们在其他专家还在打草稿的时候就已经得出自己的结论了。他们近乎邋遢的编程风格也使很多传统软件工程师感到困惑……直到把他们都甩到身后。速度是最高准则，其次是不要错过潜在机会。掌握信息可视化能在技术层面上突破速度瓶颈：高效的规划使得大脑能更快提取信息，这项技能在需要对信息进行分析的时候能立马派上用场。

在统计学家和搞机器学习的伙计们陷入瓶颈时，分析师就是决策者和其他数据科学从业者的灵感来源。

结果：企业家能掌握自己的工作进程，也能对前所未知领域洞察一二，使得决策者能选出有价值的问题交给统计学家和机器学习工程师去研究，省得他们在无穷无尽的数学题中浪费时间。

数据科学界的背锅侠？

废话连篇还是妙语连珠？

“但是”，统计学家反对道，“他们大部分所谓的见解都是废话。”这是在说他们的探索可能只反映出了干扰项，或许还有更多的东西。

分析师用数据讲故事。他们的工作是总结有趣的事实，其过程中发现的所有诗意的灵感，如果没有统计学方面的知识进行支撑，就不能当真。

好的分析师会坚持一个黄金准则不动摇：不要对数据范围之外的东西下结论（要确保你的受众也不要这么做）。不幸的是，相对来说，市面上很少有技术过硬的分析师——买家请注意：现在市面上有很多滥竽充数的人假装自己是数据科学家。但要清楚，从不可知得到可知是没有捷径的。他们兜售废话，想当然地得出一些结论。如果你对自己道德要求没有那么高的话，最好找一个家附近卖蛇油的人，好好招待他们，学学他们的推销技巧。就个人来讲，笔者是不赞同这样做的。

只要分析师能实事求是，不妄自尊大，最坏也不过就是浪费别人的时间。说句不好听的话，分析师比较喜欢使用委婉的言语，比如，他们不说“那么我们可以得出这样的结论”，而是说“由此我们可以想见”，强调分析每个想法，来避免领导者过分自信。

虽然验证假设需要统计学上的技巧，分析师能帮助你率先得出这些假设。比如，他们可能会说，“它们只是有关系而已，但我猜测更多的可能是因为…”，然后再给出他们得出这个结果的理由。

数据科学界的背锅侠？

要达到这样的水平，需要对数据之外的信息时刻保持敏锐的直觉，还需要具备良好的沟通技巧将可行方案知会决策者，由他们来决定哪些是统计学家们接下来工作的重点。分析师逐渐上手之后，决策者就能放手把这个工作交给他们去做，不需要再当这个中间人的角色了。

在这三个领域中，分析师是最有可能做到管理层的。

能处理数据的工具非常多，最优秀的数据分析师最清楚自己在哪方面需要加强。如果做不到的话就要警惕了。随着好奇心促使数据工程师对自己的行当进行更深入的交接，要引导他们从一对杂乱无章的信息中得出决策者期望的结论。

为了节约时间，分析师应该先把打算讲的故事摊开来，再从不同角度，结合一定的调查，随后把最终结果呈现给决策者。如果决策者头脑发热，在很重要的事情上做出了不明智的决定，这时候统计学家就得介入，在新数据中衡量其利弊。

分析统计学家

对实事求是的数据分析师来说，没有什么是绝对错误的，只有不那么奏效的。抱着“用正确的方式做事”的心态就大错特错了，尤其是探索性的数据分析和数据严谨性之间有一道很重要的分界线：就是决策者。决策者必须要衡量分析师的见解是否值得专家投入时间和精力去钻研。除非这个人是统计分析的专家，或者精明的决策者，在商场叱咤风云，否则其他人的技能点都像三明治一样，中间总是有缝隙。

如果分析师能填补这个空缺，那你捡到宝了。好好珍惜！

机器学习和人工智能中的分析

机器学习专家将大量的潜在数据输入算法，调整好设置，不断进行重复，直到机器给出预期结果。好像听起来这个过程并没有分析师什么事，但在真实商场上，有太多因素需要考虑，情况远比理想的复杂。

有办法可以把范围缩小，就是直接去问那领域的专家。还有另一个办法，就是进行分析。打个比方，机器学习工程师很擅长在厨房捣鼓，但现在他们站在一个又大又黑的仓库面前，里面全是可以使用的食材。他们要么随便拿很多食材，拖回厨房，也可以选择派一个跑腿的，举着手电筒去仓库找，分析师就是团队里跑腿的这个人。他们就好像小前锋，能帮助你很快看到问题所在并进行总结，这项技能对项目来说是个很好的助推器。

分析-机器学习专家

分析师能加快机器学习项目的进程，所以这种复合型人才很抢手。但是分析和机器学习两个领域采用的编程风格和方式不一样，很难找到顶尖高手。（要找到一个既满足条件，性格又冷静沉稳的人就更难得了，真正的全栈数据科学家都是凤毛麟角）。

长期碰壁的危害

分析专家不是低配版的机器学习工程师，他们的编程风格是故意为追求速度而进行了优化。他们也不是差劲的统计学家，因为他们的工作不完全和不确定性打交道，他们更多情况与事实打交道。“这就是我的数据呈现的结论，这个范围外的东西不属于我讨论的范畴，但决策者可能想和统计学家了解一下这方面的内容……”

新手通常不知道，比起其他应用领域，顶尖分析师的工作对数据科学中的数学知识的掌握提出了更高的要求。除非工作任务复杂到要发明一种新型假设或者算法（这是研究者的工作范畴），统计学家和机器学习专家可以直接用现成的代码包和测试，不用亲自处理公式。

比如，统计学家可能会忘记p值的t测试的公式，因为可以直接用现成的软件包。但他们肯定知道怎么使用，什么时候使用，还能纠正得出的错误结果。但分析师不会去分析结果，他们更多的是和庞大又多维度的数据集打交道。使用p值的公式来对数据集进行切割，期望原先数据集中的套路肯定会得到他们看到的数据。如果没有数学基础，你根本就不会有这样的想法。和统计学家不同的是，分析师并不关系t测试和数据是否符合，他们只关心t测试给出现有数据集的相关信息。虽然差别很小，但很重要。

统计学家和数据之外的东西打交道，而分析师则相反。

顶尖统计学家和分析师都精通数学知识，虽然有时候他们可能使用一样的公式，但他们的工作完全不一样。

同样，分析师通常会使用机器学习算法来切割数据，对数据进行分类，检查异常数据。因为分析师的工作目的不是为了提高性能，而是寻求灵感，他们采用的方法也不太一样，在机器学习工程师看来可能就比较简单。但这也是同一种工具不同用途的例子。

打个简单的比方：医生、裁缝和办公室文员都会使用大头针。但他们所做的工作大相径庭也不可相提并论。如果为了职业上的提升，劝裁缝或文员去学习外科知识是非常危险的。

如果招太多机器学习和统计学方面的员工或者只奖励有这两方面的技能的员工，你可能会失去分析师。谁帮你分析哪些问题值得解决呢？那时候你就只剩下一帮可怜的专家，整天疲于解决那些没什么用的项目和分析任务。那你手头的数据就完全没用了。

对研究者的关心和爱护

如果没有那种任务重、难度大、现有的算法都不能解决的问题，很多负责人想招博士，（他们过分注重学术研究），而不是去找统计学家和机器学习工程师。

数据科学界的背锅侠？

如果你想投资弄一个研发部门，但并不打算问开发者最近做了些什么。为了研究而研究是一项风险很高的投资，很少有公司能负担得起，因为从无到有的几率非常小。

有真正需要解决的问题时，研究者才真正属于研发部门之外，如果没有现成的可用算法，他们能创造出新的算法，不然就变成了一项永无休止的任务（那完全就是你的责任，与他们无关）。研究者通常会在训练阶段花很长时间，当然，有总比没有好。

数据科学界的背锅侠？

遇事不决，先招分析师

分析师帮你辨认出有价值的项目，数据科学家试着去解决但没能成功时，通常就是把分析师收入囊中的最佳时机。这时候就要放出专业的发明家了。

点睛之笔

遇事不决，先招分析师。好好珍惜他们，做出成果之后好好奖励他们。要鼓励他们在自己的事业中创出一片天地（是你的事业，不是别人的。）在上文提到的所有角色中，每个行当其实只需要决策者和分析师而已。只有实际需求出现时，你才需要其他角色。从分析师开始，为你的新技能感到自豪，同时也要开拓视野，善于接受眼前新的信息。不要小看灵感的力量。

数据科学界的背锅侠？

图|GETTY IMAGES, 巴比伦，摄影之外，VICKIJAURON

笔者最喜欢的一种说法就是，人都是商业中领导者，在找工作的时候都追着一帮分析师跑。

数据科学界的背锅侠？

留言点赞关注

我们一起分享AI学习与发展的干货

如转载，请后台留言，遵守转载规范

机器学习大数据

HappinessSourceL

0 关注 0 粉丝 0 动态

相关推荐

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 2020-11-13

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 2020-11-08

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中的数据偏差是一种错误，其中数据集的某些元素的权重和/或表示程度高于其他元素。偏置数据集不能准确表示模型的用例，从而导致结果偏斜、精度低和分析错误。通常，机器学习项目的培训数据必须代表现实世界。数据偏差可能发生在一系列领域，从人类报告和选择偏差到算

gyunwh 2020-11-02

机器学习中处理缺失值的9种方法

它是任何数据科学或机器学习项目的关键。在大多数情况下，当我们从不同的资源收集数据或从某处下载数据时，几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因

EchoYY 2020-10-31

人工智能和机器学习如何从物联网数据中提取关键见解

过去几年，围绕物联网的大部分讨论都集中在连网设备本身——它们是什么、有多少以及如何保护它们。虽然所有这些小端点都很重要，但在物联网中更重要的是这些设备所生成的大量数据，以及通过分析可以从中获得的业务见解。这些缺点在物联网环境中更加严重，在物联网环境中，大量

dingyahui 2020-10-30

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

苹果「一呼百应」的号召力在机器学习领域似乎也不例外。新版 Mac 推出还不到两周，谷歌就把专为 Mac 优化的 TensorFlow 版本做好了，训练速度最高提升到原来的 7 倍。对于开发者、工程师、科研工作者来说，Mac 一直是非常受欢迎的平台，也有人用

Micusd 2020-11-19

如何通过7个步骤构建机器学习模型

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。部署和管理机器学习项目通常遵循相同的模式。对于许多组织来说，机器学习模型开发是一项新活动，但是在某种程度上已经建立了以数据为中心的项目构建方法。此外，这种方法由

人工智能 2020-11-19

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

关于机器学习管道需要了解什么?

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术，他们通常认为，IT主管能够有效调动流程，并使模型表现良好。现实情况是，了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘，而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机

jaybeat 2020-11-17

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 2020-11-16

LinkedIn开源Dagli，发布Java机器学习函数库

近年来，越来越多的优秀的机器学习工具不断涌现，如 TensorFlow、 PyTorch、 Caffee 和 CNTK、用于大规模数据的 Spark 和 Kubeflow，以及用于各种通用模型的 scikit-learn、 ML.NET 和最近的 Trip

lgblove 2020-11-16

关于机器学习算法的16个技巧

您可能听说过瑞士军刀。如果没有，请看下面的图片。它包含许多刀片和工具。每个人都专门从事一项特定的任务。在某些情况下，不同的刀片可以完成相同的任务，但性能不同。我将机器学习算法视为瑞士军刀。性能可能会根据任务和数据的特征而变化。例如，对数损失是与所有分类算法

Pokemogo 2020-11-16

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 2020-11-16

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

人工智能如今已成为大街小巷的热议话题。企业为了吸引客户和目标用户，在生产产品、提供方案时总会使用机器学习、深度学习等花哨的词汇。但实际上，这些词汇绝不仅是“噱头”而已。科技大厂了解科技发展的主流趋势，且无法承担技术落后的风险，所以他们都已适应了此次计算机革

clong 2020-11-13

10个丰富自我的机器学习项目

机器学习项目有很大的发展潜力，最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。毕竟招聘者一般通过你拥有的技能来判断你的潜力。此外，确保所有数据集都呈现开放状态允许自由访问。很多机器学习课程将这个数据运用于教学目的，它可以预测人类的活动类别，这是一

ohbxiaoxin 2020-11-13

机器学习如何颠覆金融行业

在过去的十年中，金融行业采用了很多前所未有的尖端技术。金融科技初创厂商是智能手机、大数据、机器学习、区块链等新技术的早期采用者，被认为是被更传统的银行和金融机构所效仿的潮流引领者。机器学习和深度学习的最新进展确实推动了计算机视觉和自然语言处理的界限。Sta

Icevivian 2020-11-13

24个提高知识和技能极限的机器学习项目

数据科学项目为你提供了一种有前途的方式来启动你在该领域的职业。你不仅可以通过应用它来学习数据科学，还可以在自己的简历上展示一些项目！这是大多数人挣扎和错过的地方。另外，我们确保所有数据集都是开放的并且可以自由访问。它由中型和大型数据集组成，需要一些认真的模

EchoYY 2020-11-12

IT自动化和人工智能将在2021年走向何方？

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

CSDN人工智能头条 2020-11-11

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 2020-11-11

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

在数据领域，很多人都在说机器学习，但是只有很少的人能说清楚怎么回事。网上关于机器学习的文章，大多都是充斥各种定理的厚重学术三部曲，或是关于人工智能、数据科学魔法以及未来工作的天花乱坠的故事。尽管数据分析实际工作中用到机器学习的机会真的不多，但我觉得它仍是数

jaybeat 2020-11-10

HappinessSourceL

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号