算法、数据、机器学习能力…… AI创业企业的护城河是什么？

mtzhujun0

2017-10-26

算法、数据、机器学习能力…… AI创业企业的护城河是什么？

投资者最关注的事情之一就是创业者是否找到了自己的护城河。以及，在未来岁月里，你的护城河是否越挖越深。

在AI时代，一家希望在AI领域创业成功的公司的护城河是什么?不是算法，不是数据，而是数据的平方。

这对初创企业来说颇有难度，因为现有的数据都掌握在已成巍峨之势的大公司手里。本文正是为解答这一难题而来：小公司如何获得数据优势，上演大卫战胜歌利亚的逆袭故事?或者至少能够与强者共存?

不再剧透，请阅主文。

投资无非就是要找到“护城河”，也就是某行业领域内一家公司独有的优势和强项。因为：

未来的预期现金流预示了公司的估值;
盈利的能力预示了未来的预期现金流;
而护城河则预示了盈利的能力。

为什么护城河预示了盈利的能力?很简单，因为护城河增强了一家公司与其供应商和顾客的议价能力，帮助公司提高产品价格、降低成本，以此获得更多利润。各个市场里现有的网络效应就是护城河的一个绝佳例子。以Airbnb来说，如果有越多的房出租，就越有可能吸引更多的房东自己找上门来，在Airbnb上发布房源。这样就形成了闭环，其他平台就很难进入这个市场了。

这种机制产生了一种“赢家通吃”的态势，最大最强的那家公司常常会比它的竞争对手们大出几个数量级。这也是为什么投资者喜欢这类独角兽的原因。

AI为何如此特别?

现在，AI浪潮引起人们关注的是，它带来了一种新型网络效应，有人将其称为“数据网络效应”。机器学习的算法需要数据来支撑。虽然算法和数据之间并不存在线性关系，但机器学习的算法在接受了大量的数据后，处理预测/分类性任务的准确性变得更高了。

还有以下这种机制也值得注意：一家公司，随着其用户增多，会收集到越来越多的数据来训练和优化自己的算法，预测顾客喜好的精准度就越高，产品的总体质量也随之提升，这就会吸引更多的新顾客来购买产品，为公司提供更多数据。这样又形成一个闭环。

这就出现另一种自我增强型反馈环路，我们称之为“人才吸引环路”。一家公司拥有越多数据，它就越能吸引到数据研究者来该公司工作，就有更大的机会吸引到业内大神，打造出完美的机器学习产品。

但问题是，一家初创公司起初一点数据都没有(或只有一点数据)，只能依靠一小群有才华的人(通常就是创始人)来维持运作。正如市场需要时间和资源来形成网络效应，AI公司也需要初始数据来开始形成自己的增强环路。

而谁拥有这样的数据?

现有的大公司。

这就是为什么现有公司会凭着既有优势，有失公平地站在了人工智能这场浪潮的浪尖上。

不过，好消息是，现有的大公司也不是那么容易地就可以驾驭这股潮流。

歌利亚可以战胜：

分析现有公司优势的框架

算法、数据、机器学习能力…… AI创业企业的护城河是什么？

以下这个公式可能可以用来解释AI公司成功的部分原因：

AI企业成功=数据+机器学习能力+算法

也就是，成功的、有市场竞争防御能力的AI公司有着足够多的数据让其机器学习可以用来创造出最佳的算法。

要想看清AI领域现有公司的优势，一个很有用的方法便是观察这个2×2矩阵，其中一条轴是每个用例里可用的数据总量，另一条轴则是这个用例里的公司的本质。

在大型科技公司的用例里，每个潜在的客户都拥有大量的数据，如果我们看这些用例，就会发现现有公司的优势十分明显。除了那些典型的优势外(如客源更广、更有能力去投资和承受损失)，大型科技公司就像坐吃山不空，依靠的是多年积累的数据。

它们也从自己的品牌和强大的财力资源中获益，有能力去聘请最优秀的机器学习人才，让他们研发出最强大的算法。现有公司的得分：3/3。

初创公司在这种情况下不应该跟现有科技公司硬碰硬。

但现有公司在矩阵的这一块并没有很大优势，这就是右下方这一领域。这一块是非技术公司的主场，而且它们的每一位潜在客户都已经拥有了大量数据。想一想管理高速公路的运营商，它们就拥有着多年以来的收费站数据。

历史已经证明，数据可能比算法更有价值，尤其是在深度学习登场后。

此外，大型技术公司正不断地将最新的机器学习包开源出来，让算法变成了商品，尤其是在物体识别、自然语言处理领域——我们称为广义机器学习。有了广义机器学习，那些拥有大量数据集的非技术公司在使用开源数据包后得以获得相关的有用结果，而这些数据包先前都是用科技公司的数据集来训练的。

总的来说，一家大公司，无论它是不是科技公司，也不管内部有没有顶尖的机器学习专家，都可以比一家拥有顶尖机器学习专家的小公司创造出更优质的人工智能产品，因为它比小型初创公司拥有更多数据，就这么简单。

这样一来，我们就应该在方程式里更注重数据而不是机器学习的能力，所以，之前的公式应该修正为：

AI企业成功=数据×数据+机器学习能力+算法

对初创公司来说，这可能意味着大量机遇。尤其是如果初创公司能：

整合大型技术公司缺乏的多种信息源，或者：
产生额外的专有数据。

这个矩阵里剩下的左下角这一块，可能就存在着最大的机遇：技术公司没有参与进来，而客户也没有途径接触到足够庞大的数据集来让广义机器学习发挥作用。农业和医护的某些领域就是很好的例子，这些领域里还没有大型技术公司占据市场，而每个客户也只有少量数据。

初创公司如何深挖护城河?

上述新公式意味着，当数据一开始只有很少量的时候，它的影响就没有公式修正之前时那么大，机器学习能力和算法的权重就显得更大。在这种情况下，现有公司的优势就没有之前那么明显了。

这样计算的直接结果就是，当市场里数据稀少时，初创公司有机会凭借关键的机器学习能力和创新性的算法成为市场赢家。

以下三种相互关联的方法，可以解决数据稀少情况下如何启动创业的问题。

方法1：从众多顾客身上收集数据

虽然凭一家公司之力可能无法获得足够多的数据集来打造出一款高级AI产品，但如果一家AI初创公司从其主要客户中不断收集数据，形成自己的数据池，那它就有可能成为唯一一家产品能让顾客满意的公司。在这个过程中，所有相关方都需要贡献出自己获得的数据，让算法能够在更庞大的数据基础上得以训练，进而从中受益。

方法2: (多个)智能系统

如果我们再深入一点探究大数据集难以获得的其他原因，就会发现这些数据集不仅存在于不同客户之间，还存在于不同的SaaS工具里。

坐拥这两类数据集的AI初创公司就有非常大的可能做出最精准的预测，成为一种智能系统。

你可以把数据集看作是价值链上的互补性资产。刚成立的、看上去人畜无害的AI初创公司，可以与现有公司不屑于合作的客户合作，从而建立起互补性资产，在与现有公司的竞争中存活下来。

这种观点的逆反命题就是，任何一家依赖于单一、非专有数据的公司，其市场竞争抵御能力比那些结合多种数据来源的公司要低。

最后，我们回到了这个问题上：“谁在用我的数据赚钱?”——是那家产生数据的公司吗?是储存数据的公司吗?还是那家打造出了最佳机器学习产品的公司?

方法3：获得特有用户生成的数据集

如果一家公司无法从多方客户或多种SaaS工具里收集到数据，或者这些数据不足以让公司做出精准模型，那么它可以尝试从其对外提供的SaaS服务里产生额外的数据。这种独特的方式可以让公司获得专有的数据集，而其他现有公司无法获得。

只需少量的时间、投入和金钱就可以获得足够多的数据来满足客户的期待，因此公司的防御能力相对有限。这种情况尤其适用于所使用的数据可以公开获得的案例。

客户很有可能不会贡献他们的数据，而数据网络效应也需要经过漫长时期才能显现，所以公司的防御能力会越来越强。

机器学习学习能力大数据创业能力创业算法人工智能

mtzhujun0

0 关注 0 粉丝 0 动态

相关推荐

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 2020-11-13

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 2020-11-08

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中的数据偏差是一种错误，其中数据集的某些元素的权重和/或表示程度高于其他元素。偏置数据集不能准确表示模型的用例，从而导致结果偏斜、精度低和分析错误。通常，机器学习项目的培训数据必须代表现实世界。数据偏差可能发生在一系列领域，从人类报告和选择偏差到算

gyunwh 2020-11-02

机器学习中处理缺失值的9种方法

它是任何数据科学或机器学习项目的关键。在大多数情况下，当我们从不同的资源收集数据或从某处下载数据时，几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因

EchoYY 2020-10-31

人工智能和机器学习如何从物联网数据中提取关键见解

过去几年，围绕物联网的大部分讨论都集中在连网设备本身——它们是什么、有多少以及如何保护它们。虽然所有这些小端点都很重要，但在物联网中更重要的是这些设备所生成的大量数据，以及通过分析可以从中获得的业务见解。这些缺点在物联网环境中更加严重，在物联网环境中，大量

dingyahui 2020-10-30

关于机器学习算法的16个技巧

您可能听说过瑞士军刀。如果没有，请看下面的图片。它包含许多刀片和工具。每个人都专门从事一项特定的任务。在某些情况下，不同的刀片可以完成相同的任务，但性能不同。我将机器学习算法视为瑞士军刀。性能可能会根据任务和数据的特征而变化。例如，对数损失是与所有分类算法

Pokemogo 2020-11-16

选择困难终结者：不同问题之下的机器学习算法

刚开始学习数据科学时，笔者经常面临这样一个问题：遇到具体问题，选择何种算法才合适。也许你也和我一样，搜了很多有关机器学习算法的文章，会看到许多详细的描述，却并没有减少让抉择的难度。问题陈述2：深挖客户统计数据用以识别模式。问题陈述12：根据车辆特性预估车辆

lwnylslwnyls 2020-11-06

如何通过7个步骤构建机器学习模型

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。部署和管理机器学习项目通常遵循相同的模式。对于许多组织来说，机器学习模型开发是一项新活动，但是在某种程度上已经建立了以数据为中心的项目构建方法。此外，这种方法由

人工智能 2020-11-19

关于机器学习管道需要了解什么?

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术，他们通常认为，IT主管能够有效调动流程，并使模型表现良好。现实情况是，了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘，而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机

jaybeat 2020-11-17

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 2020-11-16

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 2020-11-16

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

人工智能如今已成为大街小巷的热议话题。企业为了吸引客户和目标用户，在生产产品、提供方案时总会使用机器学习、深度学习等花哨的词汇。但实际上，这些词汇绝不仅是“噱头”而已。科技大厂了解科技发展的主流趋势，且无法承担技术落后的风险，所以他们都已适应了此次计算机革

clong 2020-11-13

10个丰富自我的机器学习项目

机器学习项目有很大的发展潜力，最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。毕竟招聘者一般通过你拥有的技能来判断你的潜力。此外，确保所有数据集都呈现开放状态允许自由访问。很多机器学习课程将这个数据运用于教学目的，它可以预测人类的活动类别，这是一

ohbxiaoxin 2020-11-13

机器学习如何颠覆金融行业

在过去的十年中，金融行业采用了很多前所未有的尖端技术。金融科技初创厂商是智能手机、大数据、机器学习、区块链等新技术的早期采用者，被认为是被更传统的银行和金融机构所效仿的潮流引领者。机器学习和深度学习的最新进展确实推动了计算机视觉和自然语言处理的界限。Sta

Icevivian 2020-11-13

IT自动化和人工智能将在2021年走向何方？

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

CSDN人工智能头条 2020-11-11

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 2020-11-11

理解AI：为什么要在人工智能系统中寻求可解释性呢？

本文转载自公众号“读芯术”。或许这是你第一次听到人工智能前面加“可解释的”这个形容词，但其实它的涵义你一定能理解。可解释的人工智能是指构建AI应用程序的技术和方法，人们借此以理解它们做出特定决策的原因。换句话说，如果我们可以从AI系统获得有关其内部逻辑的解

白飞飞Alan 2020-11-11

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

微软和谷歌一直在积极研究用于训练深度神经网络的新框架，并且在最近将各自的成果开源——微软的PipeDream和谷歌的GPipe。原则上看，他们都遵循了类似的原则来训练深度学习模型。这两个项目已在各自的研究论文中进行了详细介绍，这篇文章将对此进行总结。对于初

深圳克林斯曼 2020-11-09

IT自动化和人工智能将在2021年走向何方?

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

EastCarFxxBlog 2020-11-09

强化学习到底是什么，它如何运作？

强化学习是一种行为学习模型，由算法提供数据分析反馈，引导用户逐步获取最佳结果。不同于使用样本数据集训练机器模型的各类监督学习，强化学习尝试通过反复试验掌握个中诀窍。强化学习与人类在婴幼儿时期的学习过程非常相似。这是一种基于经验的学习流程，机器会不断尝试、不

83153251 2020-11-06

mtzhujun0

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号