如何应对数据科学的“负担症候群”

无风而起

2018-01-25

摘要：为什么“负担症候群”在数据科学中如此流行，我个人是如何处理这个问题的？应该如何鼓励那些正在受影响的人？本文对此进行了详细的阐述。

“负担症候群”为何在数据科学中如此盛行？其原因如下：

（1）数据科学是一个全新的领域。

2011年，DJ Patil和Jeff Hammerbacher首次被冠名为“数据科学家”。从那时起，我们一直都想弄明白数据科学到底是什么？“数据科学”的不同定义导致了我们对数据科学家应该是什么感到困惑。在此之前，由于“数据科学”也未曾在大学里教过，绝大多数的数据科学家并没有“数据科学”文凭，他们中的大部分也都是来自其他领域。

（2）数据科学是一些领域的综合。

数据科学家可以是分析员/统计师/工程师/机器学习专家/可视化专家/数据库专家/业务专家的组合。他们每个人都在自己的领域具有很资深的地位，从上述任一领域来到数据科学领域的人跟其他人会有明显的差距，这也是完全合理的。

（3）采用新技术，数据科学的范围正在不断的扩大。

随着计算机内存变得越来越便宜，开源代码也越来越流行，越来越多的人对学习数据科学及其相关领域感兴趣，和数据科学相关得技术也在健康的发展。这对于社区和效率来说都是好事，也为数据科学家们提供了大量的新技术来学习。

具有不同背景的人来到一个新的有许多实际应用的领域时，这个新领域的界限也并没有很明确的定义（从而不可避免的导致他们对整个领域的知识存在空白），其技术的发展速度使人们很难跟上。这是数据科学家在2018年所面临的困境，也是为什么有这么多人会受到“负担症候群”的影响。

应对“负担症候群”的秘诀

我了解的每位数据科学家都在不断的学习，它可能是个很小的东西（一个工具或是快捷键）或者是更大的东西（一个新算法或编程语言），但是我们都在不断的学习，这很重要。对于我来说，每个人都在学习的这个领域让我感到兴奋的同时，同样也产生一种恐惧感（如果我学到的知识是别人已经知道了呢？），这种恐惧感就是“负担症候群”。

我处理“负担症候群”的方法是：我知道永远无法学习到数据科学中所有的知识——我永远不会了解每一个算法，每一种技术，每个包，甚至是每一种语言，这都没有关系。在这个多元化的领域，最伟大的事情就是没有人会知道所有的这些事情。

同样，我也会知道别人所不了解的知识。我已经为几十所大学和非盈利组织构建了预测模型，具有成功创建和分析A/B测试所需要的经验，并且正在学习如何在实际生产中使用机器学习模型。这些并不是每个人都有的技能，有些人比我更了解计算机科学或机器学习，又或者是Macbook快捷键。没关系，多样性是件好事，我也可以从这些人那学习他们的技能。强大的Venn图可以阐述你与其他人的关系，以及如何重叠的。你所了解的知识很少是其他人了解的子集，而是重叠关系，这也会使你与别人不同。

如何应对数据科学的“负担症候群”

社区内降低“负担症候群”

如果我们一致认为数据科学家都在工作中不断的学习，那么我认为，为了在更大的数据科学社区降低“负担症候群”影响，我们能做的就是公开认可它并致力于建立一个健康的学习环境。

·适应“I don’t know”。

当人们说“我不知道”的时候，需要很大的勇气承认，我很尊敬这样做的人。让人们更加适应“我不知道”，一种方法就是建立良好的社会规则（当有人不知道时，不要假装惊讶，而是将他当做幸存者之一）。

·不要“假装成功”

有信心当然是好事，但是“imposter”实际上就是欺骗，而且我认为，想要成为更好的数据科学家，我们可以做的比“伪装”更好。“伪装”很有压力，如果你陷入一个谎言，可能会造成长期的伤害和失去其他人对你的信任。

·鼓励提问

勇于提出问题有两个好处：一是通过围绕问题的对话获取知识；二是公开提问可以鼓励他人提问。提出问题正是数据科学家应该做的事情，我们应该鼓励。

·分享你所学到的知识

当我看到其他人在分享他们正在学习的知识时，这也有助于从自己的角度看待我自己的学习情况——而且我对于该话题是否了解的比较多，也激励着我去了解这个对于他们来说是新知识的话题。

以上为译文。

本文由阿里云云栖社区组织翻译。

文章原标题《imposter syndrome in data science》，译者：Mags，审校：袁虎。

科学机器学习数据科学大数据

安科网

如何应对数据科学的“负担症候群”

无风而起

无风而起

相关推荐

数据科学面试中应了解的十种机器学习概念

2020年数据科学的四大热门趋势

为什么数据科学的专业认证越来越重要？

回归根基：5篇必读的数据科学论文，帮你保持领先地位

没有完整图时，如何使用图深度学习？

100天学习计划 | 一份详实的数据科学指南

可编程的磁驱动软体机器人来了！Science 子刊：背后原理19世纪末提出

会机器学习就够了？下一代数据科学家群体走向“全栈”！

Science 好文：强化学习之后，机器人学习瓶颈如何突破？

终于有人把AI、BI、大数据、数据科学讲明白了

给毕业生：你应该选机器学习还是数据科学？

这5个Python库太难搞！每位数据科学家都应该了解

年中盘点：2020年炙手可热的10家数据科学和机器学习初创公司

数据科学的现在与未来

ch1-数据科学概述

入数据科学大坑，我需要什么样的数学水平？

18个值得推荐的学习Python和SQL的数据科学平台

科学提升认知方法之贝叶斯公式

《非线性科学中的现代数学方法：综述》

2020年值得关注的20大机器学习和数据科学网站

无风而起