微软与哈佛大学合作开发开放数据差异隐私平台(附链接)

微软与哈佛大学合作开发开放数据差异隐私平台(附链接)

作者:John Kahan - Chief Data Analytics Officer

翻译:吴金笛

校对:和中华

本文约2400字,建议阅读5分钟

本文介绍了一个基于差异隐私技术的数据分享平台。

我们生活在一个充斥着数据的世界,我们每天都在创造越来越多的数据。然而,数据通常包含敏感的个人信息,这些信息可以通过允许重新标识数据所有者的方式对其进行操作。因此,我们需要找到一种方法来分析数据,以释放其全部潜力,同时又不为数据所有者的隐私带来风险。最近人工智能和数据科学的进步使这成为可能,这就是为什么我很高兴宣布,微软与哈佛大学的Gary King,Weatherhead大学的教授、哈佛大学定量社会科学研究所的创始人兼领导者,合作构建一个平台来使用差异隐私以保证数据的私密性,同时使跨部门的研究人员包括学术界、政府和私营部门获得新的可以迅速提高人类知识的见解。

“我们很高兴能与微软合作这个重要的项目。我们的目标不是平衡个人隐私和公众利益,而是消除冲突,实现两者。” Gary King说。

差异隐私,是一项对大型数据集的隐私保护分析而量身定制的技术,于2006年发明,由微软研究员杰出的科学家 Cynthia Dwork和哈佛大学计算机科学教授Gordon McKay带头的,与Kobbi Nissim、Frank McSherry和Adam Smith合作,进行了为期四年的研究。差异隐私使研究人员和分析人员能够从包含个人信息的数据集中提取对公共利益有用的见解,同时提供当今最强大的隐私保护。

这种看似矛盾的结果是通过在计算中引入相对较小的误差或统计噪声来实现的。这些误差大到足以保护隐私,但又小到提供给分析师和研究人员的答案仍然有用。我们的目标是建立一个差异化的隐私平台以提供一个更通用的解决方案,最终可能会有广泛的研究人员和公司对此做出贡献。

“差异隐私体现了对基础研究进行投资的回报,也展示了理论计算机科学作为社会变革工具的巨大潜力。创建一个具有工业实力、公众可用的平台将促进实践和艺术发展” 。Cynthia Dwork说。

以前,研究人员依靠去识别等技术,这是一种在更大的数据集中剥离敏感数据的过程。不幸的是,这种方法不安全,并且很容易被通过重复和复杂的查询以及将其与其他数据结合使用的方法而破坏。

差异隐私背后的数学是复杂的,但如果你想了解更多信息,我建议阅读Cynthia Dwork一篇简短的论文,即隐私数据分析的一个坚实的基础(https://www.microsoft.com/en-us/research/publication/a-firm-foundation-for-private-data-analysis/),它专为广泛的技术受众编写,和另一篇论文,即差异隐私:非技术受众入门(https://dash.harvard.edu/handle/1/38323292),由哈佛大学计算机科学和应用数学教授Salil Vadhan和Vicky Joseph共同编写,他们也将与我们在这个项目上合作。

这些论文很好地总结了差异隐私给那些想要分析敏感数据的人带来的好处:

  • 差异隐私本质上是保护个人信息,就像在分析中没有用到她的信息一样。
  • 差异隐私本质上保证了使用个人数据不会泄露任何特定于她的个人身份信息。在此,特定指的是除非在分析中使用的信息,否则无法被推断出的信息。
  • 差异隐私本质上掩盖了任何个人的贡献,使得无法推断任何特定于个人的信息,包括个人的信息是否被使用。

在微软方面,我们的平台的开发是由Azure AI团队领导, 由微软 AI平台的副总裁Eric Boyd带领, 他说:“这种合作汇集了微软巨大的工程资源和Azure AI以及一些最有才华的数据科学家,工程师和科学家来开发一种数据共享工具,这将从根本上改变我们做研究的方式。我们正在研究来自政府、医疗保健、学术和商业部门的实际情况,这些情况将展示差异隐私如何提供最强大的可能的隐私保护,我们很高兴看到更深层次的见解和新的解决方案。”

一但构建了基本架构并实施治理,我们将向全世界的开发人员、研究人员和公司开放平台和算法,让他们在未来参与构建和支持该平台。我们认为,这种开放的方法对成功至关重要,因为它保证了透明性,使所有人都能信任产出。

我们的项目还建立在微软的同态加密和机密计算的工作之上,这些工作旨在提高云计算的安全性。当将同态加密与差异隐私相结合以确保数据安全时,用户将能够释放其数据的全部潜力,并确信其数据将保持安全和在他们的控制之下。

一旦该平台可用,研究人员将能够使用它使他们自己的数据集可供世界各地的其他研究人员使用。因此,我们可以将各种各样的、以前没有联系的甚至不相关的数据集组合成可以被人工智能分析的海量数据集,这将进一步释放数据的力量。也许更重要的是,由此产生的见解将开辟新的研究途径,使我们能够为人类面临的一些最紧迫的问题开发新的解决方案。

目标是使用我们的集体创新和取得的突破为每一个人服务:对抗癌症和其他疾病,设计工具来帮助有学习障碍者,帮助难民找到生活的地方,以及保护我们的地球不受气候变化的危害,同时保护为我们提供数据的数据所有者的隐私。

该项目也将是Cascadia数据发现计划的一个关键组成部分,该计划旨在建立一个强大的健康数据生态系统,重点是在西北地区开展协作、数据共享和数据驱动的癌症研究。下周我将参加Cascadia创新会议,届时我们将讨论我们在差异隐私方面的工作,以及它如何推进我们的合作伙伴Fred Hutchinson癌症研究中心和其他CDDI合作伙伴正在开展的工作。

我们将在今年秋天宣布如何让更多开发人员和研究人员参与我们的细节。

原文标题:

Microsoft and Harvard’s Institute for Quantitative Social Science Collaboration Develops Open Data Differential Privacy Platform, Opens New Research

原文链接:

https://www.linkedin.com/pulse/microsoft-harvards-institute-quantitative-social-science-john-kahan/?trackingId=f0rsxujTTHapEOmCYHSdfw%3D%3D

编辑:王菁

校对:林亦霖

译者简介

微软与哈佛大学合作开发开放数据差异隐私平台(附链接)

吴金笛,雪城大学计算机科学硕士一年级在读。迎难而上是我最舒服的状态,动心忍性,曾益我所不能。我的目标是做个早睡早起的Cool Girl。

— 完 —

关注清华-青岛数据科学研究院官方微信公众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。