如何使用无监督机器学习来发现隐藏的科学知识?

点击上方关注,All in AI中国

如何使用无监督机器学习来发现隐藏的科学知识?

Credit: Olga Kononova

跟上新科学文献出版的速度变得越来越困难。一个研究人员可能要花几个月的时间对一个主题进行广泛的文献综述。如果一台机器能在几分钟内读完所有发表过的关于这个特定话题的论文,并告诉科学家前进的最佳道路,可能这种现象离我们还很远,但是我们下面描述的研究提出了一种新颖的方法,利用科学文献进行材料发现,而不需要人类的监督。

为了使计算机算法使用自然语言,单词需要用某种数学形式表示。2013年,算法Word2vec的作者发现了一种有趣的方法,可以从大量文本中自动学习这种表示。文本中出现在相似上下文中的单词通常具有相似的含义。因此,如果训练神经网络预测目标词的邻近词,它将学习相似的目标词的相似表示。它们表明,单个单词可以有效地表示为高维向量(嵌入),单词之间的语义关系可以表示为线性向量操作(参见这里的教程,其中更详细地解释Word2vec)。这种语义关系的一个著名例子就是表达式。

" king " - " queen "≈" man " - " woman " (1),

即在对应单词的向量之间进行减法。(1)两侧词对之间的语义关系代表了性别的概念。

如何使用无监督机器学习来发现隐藏的科学知识?

图1:对应的嵌入之间的线性操作捕获成对单词之间的类比。

当然,如果我们使用纯科学文本而不是普通的文本来源,如普通爬行或Wikipedia,在我们的例子中,是数百万个材料科学摘要,那么这些向量操作嵌入了更专业的知识。例如,

"ZrO2" - "Zr" ≈ "NiO" - "Ni",

其中上述表达式表示氧化物的概念。

语义关系的另一个例子是单词相似性,由嵌入的点积(投影)决定。在原来的Word2vec模型中,单词"large"和"big"有相互接近的向量(有一个大的点积),但是远离"Armenia"的向量。在我们的专业模型中,与"LiCoO2"最相似的单词是"LiMn2O4"——它们都是锂离子电池的阴极材料。事实上,如果我们使用t-SNE在二维平面上投影≈12000种最受欢迎的材料(文中提到的超过10种),我们发现材料大多是根据它们的应用和组成相似性聚类的。

如何使用无监督机器学习来发现隐藏的科学知识?

用于类似应用以及具有类似化学成分的材料聚在一起。每个"应用程序集群"中最常见的元素与我们的材料科学知

现在,我们可以做一些更有趣的事情,并根据特定的应用程序为图2左上角的"material map"着色。每一个对应于单一材料的点都可以根据其嵌入与应用词的嵌入的相似性来着色,例如"热电"。

如何使用无监督机器学习来发现隐藏的科学知识?

材质根据与application关键字的相似度"light up"

正如你们许多人可能已经猜到的那样,上图中最亮的点是众所周知的热电材料,它们在科学文摘中与"热电"一词一起被明确地提到。然而,其他一些亮点从未作为热电学,因此该算法表明了文本中没有明确写的关系。问题是,这些材料能成为良好的尚未被发现的热电材料吗?令人惊讶的是,答案是肯定的!

我们测试这个假设的几种方法之一是训练单词嵌入,就像我们仍然在过去一样。我们每年删除2000年至2018年间发表的科学摘要,并训练了18种不同的模型。我们使用这些模型中的每一种,根据它们与热电材料的相似度†(图3中颜色的强度)对材料进行排序,并选取了当年未被作为热电材料研究的前50名。事实证明,这些材料中有许多后来在未来几年被报道为热电材料,如下图所示。

如何使用无监督机器学习来发现隐藏的科学知识?

如果我们每次回到过去的一年,只使用当时可用的数据进行预测,那么现在很多预测都已经实现了。

事实上,2009年最热门的5个预测之一应该是CuGaTe2,它被认为是目前发现的最好的热电直到2012年才被发现。有趣的是,当我们正在准备和审查中,我们用所有可用的摘要做出的50个预测中有3个也被报道为良好的热电学。

那么,这一切是如何运作的呢?我们可以通过预测材料的上下文单词来得到一些线索,看看这些上下文单词中哪些与材料和应用关键词"热电"有很高的相似性。下面列出了我们的前5个预测中,有3个最具贡献的上下文单词。

如何使用无监督机器学习来发现隐藏的科学知识?

对预测贡献最大的前5个预测中的3个的上下文单词。连接线的宽度与单词之间的余弦相似度成正比。

该算法有效地捕获了对热电材料非常重要的上下文单词(或者更精确地说,上下文单词的组合)。作为材料科学家,我们知道,例如chalcogenides(一类材料)通常是很好的热电材料,而且在大多数情况下,带隙的存在是至关重要的。我们可以看到算法是如何通过单词的同时出现来学习这一点的。上面的图表只捕获了一阶连接,但是更高阶的连接也可能有助于预测。

在科学应用中,自然语言处理(NLP)几乎总是被用作从文献中提取已知事实的工具,而不是用来进行预测。这与股票价值预测等其他领域不同,例如,对有关该公司的新闻文章进行分析,以预测其股票价值在未来将如何变化。但是即使这样,大多数方法仍然将从文本中提取的特性提供给其他更大的模型,这些模型使用结构化数据库中的附加特性。我们希望这里描述的思想将鼓励直接的、无监督的NLP驱动的科学发现推理方法。Word2vec并不是最先进的NLP算法,所以很自然的下一步就是用更新颖的、上下文感知的嵌入替换它,比如BERT[5]和ELMo。我们还希望,由于这里描述的方法需要最少的人力监督,其他科学学科的研究人员将能够使用它们来加速机器辅助的科学发现。

最后

获得良好预测的关键一步是对材料使用输出嵌入(Word2vec神经网络的输出层),对应用关键词使用word嵌入(Word2vec神经网络的隐含层)。这可以有效地转化为预测摘要中单词的共同出现。因此,该算法正在识别研究文献中潜在的"缺口",比如未来研究人员应该研究的用于功能应用的化学成分。详见原出版物补充资料。

我们用于Word2vec训练和预培训嵌入的代码可以在GitHub - materialsintelligence/mat2vec: Supplementary Materials for Tshitoyan et al. "Unsupervised word embeddings capture latent knowledge from materials science literature", Nature (2019).中找到。代码中的默认超参数是本研究中使用的超参数。

相关推荐