数据共享:理想很丰满,现实很骨感

这是《新英格兰医学期刊》寄生虫争议短系列的三部曲之一,第二部分关注激励,第三部分则探讨数据收据和分析是否应该分离。

仅仅四年间,数据科学似乎就从「21世纪最性感的工作」蜕变为一群「研究寄生虫」。

最近的评论来自《新英格兰医学期刊》的一篇社论,由总编辑Jeff Drazen和Dan Longo共同执笔。

基本上,Longo 和 Drazen认为,尽管丰富数据共享的柏拉图式理想主义很美好,现实却很骨感。

Longo 和 Drazen称,首先,没有参与原始数据收集的研究者们对数据的收集缺乏基本的尊重,从而可能会误读,因为他们「可能无法理解定义参数时所作出的取舍」。

其次,也是问题的核心,Longo 和 Drazen担心,会出现一批新型研究人员,他们不参与研究的设计和执行,但将其他人的数据应用于自己的目的,可能会从数据收集者那里窃取科研生产力,甚至用这些数据来反驳原研究者的假设。一些一线研究人员担心,这一体系将被一些所谓的「研究寄生虫」这样的研究成员所掌控。

Longo 和 Drazen敦促,准数据科学家们应该和原研究者合作,共享著作权,并以《新英格兰医学期刊》的一篇文章作为范例,这篇文章成功地应用了这个模型。

我的Twitter下,对这篇社论的评论炸开了锅。

加州大学伯克利分校的遗传学者Michael Eisen称「迄今最令人震惊的反科学言论之一。」

麻省总医院、Broad研究所的心脏病学家、遗传学者Sek Kathiresan表示「用『研究寄生虫』这样污蔑性的词汇来描述对通常由公共基金赞助得来的数据的使用,真是令人震惊。」

多伦多玛嘉烈公主癌症中心的计算遗传学者Michael Hoffman称「担心其他人可能用数据来『辩驳原研究者的假设』是对科学的危险误读。」

和他们相反,我倒是很高兴看到这篇社论。

倒不是说我同意这篇文章,我由衷地站在数据科学家这一边,但是我很高心有人有勇气站出来表达我认为大部分研究学者产生共鸣、但迄今没有公开表达的一个观点。

结果就是陈述性偏好和显示性偏好的经典案例,学术研究者们信誓旦旦表示有意广泛免费地共享数据,但实际上并不愿意这么做。

为什么?我确信原因很多,但是这张(不愿意理由)清单的顶部一定是大部分研究人员认为慷慨地分享他们的数据无法带来什么好处。至少,大家觉得吃力不讨好(原因之一就是常常不会发表负面结果,另外就是向ClinVar数据库等公共资源提交材料的进展可能比大多数人预期得慢 ),此外可能会有人以不同的方式看待数据并得出不一样的结论。

确实这可能是科学是如何发挥作用的,但想让人们以一种他们认为是违背他们自身利益(这一点很合理)的方式来行事,是非常棘手的。

或许世界不该如此,但通常似乎就是这样的,如果不承认这种观点,推动学术研究人员之间的数据共享的努力只不过是浪费大家的时间,得出一些高尚但不太可行的结论。

一个绝佳案例就是,我们关于共享电子健康记录(EHR)数据的无休止讨论。每个人都公开表示,数据应当被共享,但是进展不可思议地慢,就仿佛那些主要的利益相关方并不那么希望看到这件事情发生。

如果医院院长写一封同样诚实的评论表达出于竞争因素,他们不愿意共享EHR数据,情况就可能会好很多。作者可能会被嘲弄然后开除,但至少这一坦率的观点对国民议题有重要的提示意义。

我很希望生活在这样一个世界,像Atul Butte说的那样友好地共享研究数据,而不是像Drazen 和 Longo描绘的那样。我希望生活在这样一个世界里,数据以一种慷慨的、直观的、无冲突的方式得以共享,而不是强行挖掘才能翘出EHR。

但除非我们能够直面数据不被共享的现实性、人为性、竞争性因素,否则我们会迈向一个只有布道式口号,而没有真正数据交流的未来。