独家:LinkedIn总部数据科学战队,顶级团队胜在软实力

独家:LinkedIn总部数据科学战队,顶级团队胜在软实力

作者:魏子敏,Yawei Xia(薛娅菲和Aileen对本文亦有贡献)

本文共4990字,建议阅读12分钟

本文为你揭秘LinkedIn总部数据科学团队的建设。

独家:LinkedIn总部数据科学战队,顶级团队胜在软实力

*本文为清华-青岛数据科学研究院联合大数据文摘发起的《数据团队建设全景报告》系列专访的第一篇内容。

从某种程度上讲,目前硅谷乃至全球最火爆的职业【Data Scientist】始于LinkedIn。

2008年,LinkedIn的数据科学团队负责人DJ Patil 和Facebook的Jeff Hammerbacher分别建立了全世界上前两个真正意义上的数据科学团队,并且开始用“数据科学家(data scientist)这个词来描述他们的工作性质。在这之后,Data Science这个行业和Data Scientist这个职业逐渐流行开。

而要探索数据科学团队的建设,没有哪个团队比LinkedIn及其用户增长部门的数据科学团队负责人周洋更有发言权。

2013年加入LinkedIn增长与国际业务部门,周洋带领自己的数据科学团队见证了LinkedIn用户量“稳定且健康”的增长并从数据上提供业务支持,帮助LinkedIn实现全球注册用户从二点五亿到五亿的增长,而他将这些归功于LinkedIn对数据团队的重视和数据驱动的文化氛围。

周洋认为,一位合格的数据科学家的终极目的是解决“不确定性”。他不仅应该是致力于为公司解决实际问题的科技人员,同时在战略决策层面,也应该要有为公司发现新的利益增长点的商人格局。

独家:LinkedIn总部数据科学战队,顶级团队胜在软实力

LinkedIn(领英)增长与国际业务数据科学负责人 - 周洋

数据科学团队“嵌入式”工作日常

数据科学家跟跑全程

“数据科学家帮助产品经理实现增长用户的目的,为产品团队提供技术支持,另一方面与工程师确定最后如何实现技术落地。”周洋如此描述一个数据科学团队工作的最核心内容,这也是他称作“嵌入式”的数据科学团队工作图景。

走进周洋的数据科学团队,你首先可以从“座次表”看出他们“嵌入式”的工作模式:这个20多人的数据科学家团队是嵌入在LinkedIn 150多人的增长产品团队中的,数据科学家与工程师、产品经理从“地理位置”上首先有一种亲近感。

“我们的数据科学家大多数都和他们支持的业务团队在一起,比如支持病毒式增长(virus growth)的科学家就和这个团队的业务负责任坐在一起,我又跟增长团队负责人坐在一起,这种嵌入式模式非常有效。”周洋称。

这种嵌入式的合作模式在科技公司非常常见,数据科学家在产品团队中,与产品经理和工程团队一起,是整个团队的三根支柱(pillar)。只有这三根支柱紧密协作,才能让整个产品团队将各自的专业优势发挥到最大,使得产品团队能够高效运行。

一方面需要对公司业务和痛点有足够深刻的认知,才能与产品经理合作,寻找业务增长点和机会;另一方面,数据科学家与工程师及时有效的沟通,也能保证我们能够准确度量新产品对于用户行为的影响,保证我们最大化向用户传递的价值。

周洋称,LinkedIn是一个有着强大的数据驱动文化的公司,我们希望数据科学家能够一个人跟完整个产品周期数据科学家越早的进入整个过程,越能够更有效率的工作,而在对于新人培训时,也会强调这一点。

“季度之初,数据科学家会跟业务部门沟通新一季度的工作计划,哪些需要数据支持。”在具体工作的实施上,周洋称数据科学家会从一开始就主动介入,“我们会帮他们确定要做什么,哪些需要跟进。对于一些战略性或者可拓展性的工作,(不紧急但是重要的)我们也会明确去做。”

对产品的技术支持是数据科学团队最基础的职责,也占了周洋团队日常工作的70%。剩下的20%和10%的时间分别用于战略性项目或者风险项目。

独家:LinkedIn总部数据科学战队,顶级团队胜在软实力

独家:LinkedIn总部数据科学战队,顶级团队胜在软实力

金字塔结构:数据团队提供的价值和对应职能

如果说一个数据科学团队通过金字塔底部70%的工作确保了一个公司日常工作的高效率,那么占日常工作20%的战略决策工作则决定了一个公司的发展前景。

对于一个数据驱动的公司,数据科学家的眼界对公司创新的想象力有着很重要的影响,数据科学家在战略决策层面有机会参与向公司高管提供建议,并能够最后确保战略的实施,从长远来讲对科技公司的发展意义深远

数据民主化

让每一次决策有“数”可寻

一个公司能否有领先市场的发展,决策者的眼界非常重要,高管能否对数据敏感,能否下决心把数据推动做好,决定了这个公司的前景和竞争力。

LinkedIn的CEO Jeff Weiner以强大的运营背景著称业内,受其影响,整个LinkedIn的数据驱动文化也颇为强大,高层对数据和技术非常敏感。

独家:LinkedIn总部数据科学战队,顶级团队胜在软实力

LinkedIn(领英)CEO Jeff Weiner

关于这点,周洋提到了一个细节,Jeff Weiner每天早上都会看一份每小时更新的数据报告,根据报告他能迅速了解到关于业务表现的很多信息,发现问题他还会把问题立即发回给业务团队寻求解答。由于数据团队创建的“优质运营(operational excellence)”框架,很多时候我们从现有的数据报告中已经有了答案,或者已经提前发出通知。

其实不仅CEO和高管,周洋认为,数据科学团队应该为公司不同层面的每一次决策提供战略支持,周洋称,“小到页面浏览量下降的原因,大到一个公司发展的战略方向,解决不同层面决策者面临的不确定性是数据科学家的终极目标。”

数据科学团队的任务不该止步于技术开发,他们更大的价值是将一个虚无缥缈的概念剖析开,成为数据可以解答的问题:建立框架和分析角度,分解大而全的问题,用数据分析给出小而美的答案,进一步将其变成产品建议,进而为领导层提供决策依据。

而为了让业务部门养成数据决策的习惯,周洋的团队开设了一些内部培训,比如组织数据类专题讲座Data Boot Camp,对公司不同角色的人,包括产品经理人、产品设计师和工程师进行数据平台使用的培训:教他们去使用相关系统,去了解与数据科学家合作的整个流程是什么样子的。最主要的目的是让数据更加民主化,以及,培养他们跟数据科学团队合作的习惯。

更重要的是让管理者真正看到数据给商业带来的价值。只有当公司的大部分成员开始享受数据团队带来的便利时,整个团队的效率才会共同提升,数据科学家的价值才会被广泛认可。”周洋称。

可扩展的数据分析解决方案:

将数据科学家从

重复性劳动中解放出来

可扩展的数据分析解决方案是LinkedIn另一个让周洋引以为豪的工作成就,也是数据科学团队金字塔最顶端的工作。可扩展的数据分析解决方案看似只是在运营实施过程中进行流程优化和自动化,实际上意义重大。

A/B测试是数据产品上线后的例行步骤,也是让很多数据科学家头疼的麻烦事。之前,LinkedIn测试的过程需要数据科学家对每个A/B测试手动写代码并在数据平台上计算,非常费时间。后来,数据团队建立了一个平台,将A/B测试的过程简单化、自动化。自那以后,每次做测试,工程师可以直接在平台上创建调试,产品经理也可以在测试开始几小时后直接去平台上查看测试结果,其中包括数千个度量(metric)指标以及所有相关的统计计算,整个过程几乎不需要数据科学家的介入。在这个平台上,同时有上千个A/B测试在同时运行。

从这个小的工作流程的优化上,LinkedIn非常有预见性地将数据科学家从重复繁琐的劳动中解放了出来,让他们可以更专注地做需要创造力和判断力的工作,整个团队的工作效率和影响力(impact)也因而被大大提高;从另一个角度上,也说明LinkedIn的数据战略渗透得非常彻底。

我的公司需要

一个数据科学团队吗?

而在数据驱动、大数据大行其道的今天,似乎每个公司都在招募一个数据科学团队,或者至少是一个数据科学家。

“我的公司需要一个数据科学团队吗?”这是目前困扰很多公司,尤其是初创公司的难题。

周洋对此也有自己清楚的想法:“应该有,但是在不同的阶段,不同的公司应该有不同侧重点。每个处于不同阶段的公司对数据的需求是不同的,因此数据的解决方案也是不同的,公司应该先了解自己的业务特点,再决定制定怎样的数据战略去满足自己的需求。对自身实际情况有一个准确的定位才能够起到事半功倍的效果。”

著名的二八法则在这里颇适用。周洋建议,对于大部分刚起步的小企业来说,首先应该用20%的时间去实现最基本的数据支持,这样可以达到80% 的业务提高,而剩下20%的提高却需要投入80%的资源才能实现。那么,在人力和资源都极其缺乏的情况下,一家初创公司最重要的任务是不是去实现多么先进和复杂的算法,而是利用现有的开源软件,工具包和最基本的算法实现从无到有的数据支持。

解决各个层面的“不确定性”

是数据科学家的终极目的

那么一个好的数据科学家到底应该有什么样的属性呢?

周洋认为决定一个科学家优秀程度的重要因素并不是技术。在他看来,技术是可以培养提高的,但一个数据科学家对业务问题的批判性思维、将业务问题拆分成可回答的数据问题的转换能力以及最终将解决方案清晰简洁地传达给决策者的沟通能力,才是优秀数据科学家的价值体现。

这里我们直接摘录周洋的原话,以期给各位完整呈现LinkedIn对数据科学家的期待。

周洋:很多时候,一个数据科学家的技术能力是可以训练出来的,一个通过面试的计算机、统计、运筹学、数学、电子工程相关领域的人才,他的计算能力、编程能力都不会太差。而真正困难的是对业务的了解。

我们数据科学团队的宗旨是:To make data-driven decision at scale。这里有几个关键词:数据驱动(data-driven),决策(decision),可扩展化(scale)。我们通常会鼓励我们的数据科学家积极主动去介入业务,比如我们在接受到业务部门的问题时,应该多问一下,你为什么想要知道这个数据,你为什么要问这个问题,上下文(context)是什么,最终要解决什么样的业务问题。多问几次,有时候会出现,问问题的人想知道的问题,并不是他问的这个问题可以解决的。那我们再一起来探索、分析你想了解什么,怎么样通过数据分析去解决。但团队的目的不是分析,而是通过分析拿到洞察(insight),从而提出建议。

不要用工程师的衡量标准(写了多少代码)来衡量数据科学家。我们衡量工作的标准是对业务产生的影响:寻找新的业务机会,改进现有业务流程,或者确定业务方向。

对于数据科学家来说,最终要解决的问题是“不确定性”。这个不确定性有很多不同的层面,而在不同的层面都有不同的决策者:微观的层面,工程师会希望知道浏览量下降了5%是否应该引起重视?产品经理会想要知道,一个产品想法能否有效落地?再大一点,对于CEO来说,他会想要知道,公司的发展策略上,如何再增长10亿用户?这些都是一些不确定的东西。数据科学家的工作是去消灭各个不同层面的“不确定性”。

真正去实施分析是很多人都能做的,但是到业务的最开始,解决不确定的抽象问题,才是最难得的品质:从拿到这个问题,到回答这个问题,包括拿到这个问题的批判性思维,通过一个框架把问题剖析分析成很多不同的角度和任务,告诉决策者应该怎么做。

你向决策者呈现的不一定是一个很高大上的可视化图表,而更应该是可以用一句话描述的内容,甚至可以不包括数字。比如告诉我们的CEO,应该更好的发展移动端战略。而关于为什么要这么做,我们再进一步去展示数据维度的原因。我们的最终目的始终是帮助决策者决策。

那么总结来说,我认为一个好的数据科学家应该有以下两种技能:

1、批判性思维,能够把一个业务问题有效拆分,通过一个系统框架转化为数据分析子问题;

2、沟通能力,拿到分析结果后能够总结洞察并提出业务建议,然后精准且有效率的与决策者沟通,辅助其决策。

这两个技能是我们对团队中资深数据科学家的要求。

“我非常欣赏LinkedIn的一点是,除了它的数据驱动文化,LinkedIn鼓励一个人不要做螺丝钉,给每个人包括数据科学家更大的发挥空间,鼓励他们跳出自己的“数据专家”角色局限,做一个真正有影响力的问题解决者。LinkedIn也十分鼓励每个数据科学人才找到自己的长处,实现个人价值的最大化。”LinkedIn的内部文化非常提倡每个人不断超越自我,各施所长。

不要让自己局限于自己的角色,不仅对于一个数据科学家或者一个数据科学团队,相信这也该是这个时代的每个人该铭记于心的生存准则。

相关推荐