AI时代，所有人都高呼大数据，只有他，穷其一生冲破数据的藩篱

中琦的猿生

2017-05-05

关注关注

从网络时代，到如今的AI时代，数据的价值涨了百倍。

可在算法日渐丰富、机器性能日渐强大的当下，正是数据的稀缺，让AI与各个产业的连接变得困难，梦想用AI改变各行各业，大幅提升社会效能的愿望，远远跟不上现实的骨感。

在这个时代，我们期待有更多的人，能大声疾呼，并积极行动，为数据开放做出努力，也让AI更快地走进我们的生活。

数据之于AI，正如电力之于工业社会。

网络的出现，让人们的行踪开始更多被数字化，于是，数据成了窥见人们习惯，分析行为方式最直接的燃料。

数据，原本就属于互联网的共享产物，开始变得越来越宝贵。

宝贵的代价，则是数据开始被越来越多的互联网巨头所瓜分、所垄断。

在一场原本更开放、更自由的网络运动中，数据正变得越来越封闭。

这与互联网初始的宣言背道而驰。

Tim Berners-Lee，这位万维网的创建者，这位曾拿到计算机领域的诺贝尔奖——2016年度ACM图灵奖的大牛，开始早早意识到，不对，路有点走偏了。

他强烈地意识到：

大公司控制了个人数据，占山为王的数据孤岛开始出现，阻碍数据的共享；

数据的集中，导致了包括政府在内的组织滥用这些数据。

于是，他开始大力奔走呼告，穷其一生，呼吁数据的开放。

从网络时代，到如今的AI时代，数据的价值涨了百倍。

因为，机器学习需要数据，没有数据，寸步难行。

在算法日渐丰富、机器性能日渐强大的时代，正是数据的稀缺，让AI与各个产业的连接变得困难，梦想用AI改变各行各业，大幅提升社会效能的愿望，远远跟不上现实的骨感。

于是，我们需要有人，他对于AI的未来充满信心，他认定AI一定能像下一次技术革命一样，改造各行各业的人们，愿意为AI时代的数据大开放而不断作出努力。

正如Tim Berners-Lee，尽管他并不只为AI所呼吁，但是，他为数据开放所做的努力，很少有人知道。

就在Tim Berners-Lee在互联网诞生28周年发布公开信之际，文因互联CEO、W3C网页本体语言工作组成员鲍捷专门撰文，为了让更多人了解Tim Berners-Lee在数据开放上所做的贡献，他提到：

在“Three challenges for the web”（互联网面临的三大挑战）一文中，Berners-Lee谈到几个问题：大公司控制了个人数据但却建立了不能互联的数据孤岛，数据的集中导致了包括政府在内的组织滥用这些数据，虚假信息和政治广告泛滥、误导网民。

提出问题不是目的，Berners-Lee一直致力于解决这些问题。

早在2009年，他就在TED演讲“未来的万维网”（The Next Web）（https://www.ted.com/talks/tim_berners_lee_on_the_next_web）中提出了“Raw data now!”的口号——互联数据才能释放数据的最大价值。

在数据开放方面，他推动了英国政府和美国政府开放政府数据（参Putting Government Data online https://www.w3.org/DesignIssues/GovData.html)。目前，已经有了数以百万记的各国政府数据被开放出来，涵盖经济的各个领域。此举对于世界经济未来的促进作用，可能不亚于Web本身的发明。

Berners-Lee也在推动包括大公司在内的各种组织开放数据。他多次向Facebook等社交媒体呼吁数据开放，并积极参与到分布式社交网络（Distributed Social Network）的研究和开发中，如Solid系统。

以下，我们附上Tim Berners-Lee的公开信

网络将面临三大挑战

到今天为止，距离我向万维网（world wide web）提交最初的提案已经过去28年了。我认为网络是一个开放的平台，它使得我们每一个人可以随时随地的分享信息，获取机会，并且不受地域和文化界限的限制，相互协作。然而，在过去的12个月里，我越来越担心网络发展中出现的以下三种新的趋势。我认为我们必须解决这个问题，只有解决了这个问题才能使网络成为一个服务于全人类的工具，从而实现它真正的潜力。

1）我们失去了对个人资料的控制

目前，许多网站的商业模式，都是向用户提供免费的内容，从而换取用户的个人资料。

不过，为了换取网站的免费服务，大部分人似乎并不介意一些个人信息被网站所收集。

我们的数据被保留在一个专门的数据库中时，这些信息完全游离于我们的视线之外。但是如果我们能直接控制这些数据，我们就有权选择何时与谁分享，不幸的是现在我们已经失去了这样做的权利。更重要的是，我们往往没有办法向公司反馈我们不愿意分享的数据——特别是涉及到第三方时——T＆C（条款和条件）要么代表一切，要么什么作用都没有。

公司在广泛收集数据的同时也会造成其他方面的影响。各国政府正越来越多地关注着我们在网上的一举一动，政府通过与公司合作的方法或者通过某些强制措施，以极端的法律方式践踏着我们的隐私权。在专制政权中，很容易看到上述措施可能造成的伤害——博客撰写者可以被逮捕或者被杀害，政治对手也可以被监视。但即使在那些我们认为政府能够最大化公民利益的国家，政府也能够时时刻刻看到每个人在干什么，太过分了。这对言论自由产生了寒蝉效应，并阻止了网络被用作探索重要话题的空间，例如比较敏感的健康问题、性行为话题以及宗教话题等。

2）在网络上传播错误信息太容易了

今天，大多数人通过一些社交媒体网站和搜索引擎在网络上查找新闻和信息。当我们点击了他们展示给我们的链接时，这些网站会赚取更多的钱。因此，他们会不断地收集我们的个人资料，并基于他们从我们的个人资料中学到的算法来选择展示什么给我们看。最终的结果是，这些网站向我们展示了他们认为我们会点击的内容，这就意味着某些令人惊讶、令人震惊或者旨在吸引我们偏好的错误信息或“假消息”可能会像野火一样蔓延。通过数据科学和机器人大军的作用，那些有不良意图的人可以利用系统来传播错误信息，以获得财政或政治利益。

3）网络政治广告需要透明度和理解

网络政治广告已经迅速成为一个复杂的行业。目前，大多数人从仅仅几个平台上获取信息，基于丰富的个人数据池的复杂算法变得越来越多，这说明政治活动现在正在建立直接针对用户的个人广告。有消息称，在2016年的美国大选中，脸书（Facebook）上每天有多达五万种不同的广告服务，几乎达到了一种不可监测的状况。有人认为，美国和世界各地的一些政治广告正在以一种不道德的方式使用着，例如把选民指向假的新闻网站或者让其他人远离投票站。

有针对性的广告在竞选活动中可以对不同的群体说完全不同的甚至可能相互冲突的东西。这还是民主吗?这些都是复杂的问题，而且解决方案也并不简单。但是，几条广阔的发展道路已经很清楚了。我们必须与网络公司共同努力，实现一种平衡，即把一个公平的数据控制权放回到人们自己的手中。如果需要的话，我们还可以开发新技术，如建立个人“数据豆荚”（data pods）或者探索其他收入模式（诸如订阅、小额支付等方式）。

我们必须在监督法律上与政府的过分干预进行斗争，包括在必要时通过法庭来解决。我们必须鼓励像谷歌和脸书（Facebook）这样的守门人继续努力解决这个问题，以防止错误信息的出现。同时，我们也应当避免创建出任何的中央机构，避免让中央机构来决定什么信息是“真实的”。我们需要更多的算法以更加透明的来了解影响我们生活的重要决定是如何产生的，也要了解我们可能要共同遵循的一套规则。我们迫切需要关闭在政治竞选监管中的“互联网盲点”。

作为新的五年战略计划的一部分，我们的网络基金会（Web Foundation）团队将致力于解决上述出现的这些问题。我们会更加详细地来研究问题，提出积极主动的政策解决方案，汇集联盟推动网络（Web）进展，使网络（Web）能够为所有人提供平等的权力和机会。不管怎样，我希望各位读者能够支持我们的工作，和我们共同努力。例如，您可以转发这封信的内容，对公司和政府施加压力，或者也可以捐款。我们还为各位读者编写了世界各地其他数字版权组织的目录，供大家探索、考虑和支持。

也许是我发明了网络，但是是大家帮助创造出了网络今天的模样。所有的博客、帖子、推文、照片、视频、应用程序、网页等等，都代表了世界各地数百万人为建立我们的在线社区所做的贡献。各种各样的人都在帮忙，包括那些为保持网络开放而斗争的政客们，例如万维网联盟（W3C）这样的标准组织增强了网络技术的力量、可访问性和安全性；也包括那些在街头抗议的人。在过去的一年中，我们看到尼日利亚人勇敢地对抗了一项社会媒体法案，因为该法案将会阻碍网上的言论自由；我们也看到了喀麦隆地区互联网关闭的公众抗议活动；以及印度和欧盟对网络中立性的巨大公众支持活动。

我们所有人已经努力建立起了我们现在所拥有的网络。而现在，我们所有人都要努力创建我们每个人都想要的网络。如果您想要更多地参与其中，可以通过邮件与我们联系，加入在世界各地处理这些问题的组织或者为其捐款。

蒂姆·伯纳斯·李（Sir Tim Berners-Lee）爵士

关于AI100

AI100致力于打造人工智能技术和产业社区。为人工智能开发者提供信息和技术交流的平台；为人工智能创业者提供行业数据及智能应用的商业场景；为行业提供人工智能化的技术商业应用。请快快关注我们吧！

大数据人工智能

安科网

AI时代，所有人都高呼大数据，只有他，穷其一生冲破数据的藩篱

中琦的猿生

中琦的猿生

相关推荐

人工智能技术如何落地交通出行？

docker容器与宿主机的数据交互方式总结

分布式文档存储数据库之MongoDB备份与恢复的实践详解

分布式文档存储数据库之MongoDB分片集群的问题

详解Vue数据驱动原理

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

THINKPHP5分页数据对象处理过程解析

需要知识的后深度学习时代，如何高效自动构建知识图谱

将云技术带入数据中心-走向数据驱动型业务的旅程

联想持续发力智能物联，构建新基建时代下的行业新引擎

数据科学面试中应了解的十种机器学习概念

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

雾计算在物联网中的应用

AI格局正在从“数据”转变为“知识”

SAP AMDP介绍 - ABAP托管的HANA数据库过程

数据骗子无处不在，教你拆穿所谓“万金油”

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

IT打工人，AI来“抢”你饭碗了！这次从数据中心下手

中琦的猿生