火爆的图机器学习，2020年将有哪些研究趋势？

wishchinYang

2020-02-06

火爆的图机器学习，2020年将有哪些研究趋势？

本文转自雷锋网，如需转载请至雷锋网官网申请授权。

2019年绝对是图机器学习（GML）大火的一年，凡是学术会议，图神经网络的会场总会爆满。

图机器学习的研究之所以在2019年突然变得火热，原因在于，在前几年尽管深度学习在欧氏空间中的数据方面取得了巨大的成功，但在许多实际的应用场景中的数据往往是从非欧式空间生成的。

正如阿里达摩院曾在2019年所提：“单纯的深度学习已经成熟，而结合了深度学习的图研究将端到端学习与归纳推理相结合，有望解决深度学习无法处理的关系推理、可解释性等一系列问题。”

在过去的一年里，图机器学习经过了蓬勃的发展，这从各大顶会中图机器学习的火爆场面也可以看出。

而新的一年已经过去了一个月，那么2020年图机器学习的火热还能持续吗？又将有哪些新的研究趋势呢？即将于4月份在埃塞俄比亚举办的ICLR 2020是一个能够很好反映这些问题的会议。

这个会议是由深度学习三巨头之二的 Yoshua Bengio 和 Yann LeCun 牵头创办，旨在关注有关深度学习各个方面的前沿研究。

在ICLR 2020中共有150篇投稿与图机器学习有关，而其中有近1/3的论文都被录用了，这也说明图机器学习火热依旧。

我们不妨将这些论文按照理论、应用、知识图谱、图嵌入来划分，从而一窥图机器学习在2020年的研究趋势。

注：文中涉及论文，可关注雷锋网「AI科技评论」微信公众号，并后台回复「2020年GML趋势」下载。

1、GNN理论知识会更加扎实

从目前的形式看，图机器学习的领域在成熟的康庄大道上越走越远，但是图神经网络还有很多进步空间。过去的一年图神经网络不断改进，因此诞生了许多理论研究，在我们对2020年预测之前，先来简单梳理一下图神经网络的重要理论成果吧！

What graph neural networks cannot learn: depth vs width

https://openreview.net/forum?id=B1l2bp4YwS

洛桑联邦理工学院 Andreas Loukas 的这篇论文，无论在影响力、简洁性还是对理论理解的深度上，无疑是论文中的典范。

它表明，当我们用GNN计算通常的图问题时，节点嵌入的维数（网络的宽度，w）乘以层数（网络的深度，d）应该与图n的大小成正比，即dW=O(n)。

但现实是当前的GNN的许多实现都无法达到此条件，因为层数和嵌入的尺寸与图的大小相比还不够大。另一方面，较大的网络在实际操作中不合适的，这会引发有关如何设计有效的GNN的问题，当然这个问题也是研究人员未来工作的重点。需要说明的是，这篇论文还从80年代的分布式计算模型中汲取了灵感，证明了GNN本质上是在做同样的事情。

这篇文章还包含有大量有价值的结论，强烈建议去阅读原文。可关注雷锋网(公众号：雷锋网)「AI科技评论」微信公众号，后台回复「2020年GML趋势」下载论文。

同样，在另外两篇论文中，Oono等人研究了GNN的能力。第一篇文章是《图神经网络在节点分类中失去了表达能力》，第二篇文章是《图神经网络的逻辑表达》。

Graph Neural Networks Exponentially Lose Expressive Power for Node Classification

https://openreview.net/forum?id=S1ldO2EFPr

这篇论文表明：“在已知某些条件下的权重，当层数增加时，GCN除了节点度和连通分量以外，将无法学习其他任何内容。”这一结果扩展了“马尔可夫过程收敛到唯一平衡点”的性质，并表明其中收敛速度由转移矩阵的特征值决定。

The Logical Expressiveness of Graph Neural Networks

https://openreview.net/pdf?id=r1lZ7AEKvB

这篇论文展示了GNN与节点分类器类型之间的联系。在这之前，我们已经了解GNN与WL同构检验一样强大。但是GNN可以获得其他分类功能么？直观上不行，因为GNN是一种消息传递机制，如果图的一个部分和另一个部分之间没有链接，那么两者之间就不会传递消息。

因此论文提出一个简单解决方案：在邻域聚合之后添加一个读出操作，以便每个节点在更新所有要素时与图中所有其他节点都有联系。

其他在理论上的工作还有很多，包括Hou等人测量GNN的图形信息的使用。以及 Srinivasan 和 Ribeiro提出的基于角色的节点嵌入和基于距离的节点嵌入的等价性讨论。

论文链接如下：

Measuring and Improving the Use of Graph Information in Graph Neural Networks

https://openreview.net/forum?id=rkeIIkHKvS

On the Equivalence between Positional Node Embeddings and Structural Graph Representationshttps://openreview.net/forum?id=SJxzFySKwH

2、新酷应用不断涌现

在过去的一年中，GNN已经在一些实际任务中进行了应用。例如已经有一些程序应用于玩游戏、回答智商测试、优化TensorFlow计算图形、分子生成以及对话系统中的问题生成。

HOPPITY: LEARNING GRAPH TRANSFORMATIONS TO DETECT AND FIX BUGS IN PROGRAMS

https://openreview.net/pdf?id=SJeqs6EFvB

在论文中，作者其提出了一种在Javascript代码中同时检测和修复错误的方法。具体操作是将代码转换为抽象语法树，然后让GNN进行预处理以便获得代码嵌入，再通过多轮图形编辑运算符（添加或删除节点，替换节点值或类型）对其进行修改。为了理解图形的哪些节点应该修改，论文作者使用了一个指针网络（Pointer network），该网络采用了图形嵌入来选择节点，以便使用LSTM网络进行修复。当然，LSTM网络也接受图形嵌入和上下文编辑。

LambdaNet: Probabilistic Type Inference using Graph Neural Networks

https://openreview.net/pdf?id=Hkx6hANtwH

类似的应用还体现在上面这篇论文中。来自得克萨斯大学奥斯汀分校的作者研究了如何推断像Python或TypeScript此类语言的变量类型。更为具体的，作者给出了一个类型依赖超图（type dependency hypergraph），包含了程序作为节点的变量以及它们之间的关系，如逻辑关系、上下文约束等；然后训练一个GNN模型来为图和可能的类型变量产生嵌入，并结合似然率进行预测。

Abstract Diagrammatic Reasoning with Multiplex Graph Networks

https://openreview.net/pdf?id=ByxQB1BKwH

在智商测试类的应用中，上面这篇论文展示了GNN如何进行IQ类测试，例如瑞文测验（RPM）和图三段论（DS）。具体的在RPM任务中，矩阵的每一行组成一个图形，通过前馈模型为其获取边缘嵌入，然后进行图形汇总。由于最后一行有8个可能的答案，因此将创建8个不同的图，并将每个图与前两行连接起来，以通过ResNet模型预测IQ得分。如下图所示：

火爆的图机器学习，2020年将有哪些研究趋势？

来自：https://openreview.net/pdf?id=ByxQB1BKwH

Reinforced Genetic Algorithm Learning for Optimizing Computation Graphs

https://openreview.net/pdf?id=rkxDoJBYPBDeepMind

在上面的论文中提出了一种RL算法来优化TensorFlow计算图的开销。先通过标准GNN对图形进行处理，然后产生与图中每个节点的调度优先级相对应的离散化嵌入，最后将嵌入被馈送到遗传算法BRKGA中进行模型训练，从而优化得到的TensorFlow图的实际计算开销。值得注意的是该遗传算法决定每个节点的布局和调度。

火爆的图机器学习，2020年将有哪些研究趋势？

类似的炫酷应用还有Chence Shi的分子结构生成和Jiechuan Jiang玩游戏以及Yu Chen的玩游戏等等。

论文链接如下：Graph Convolutional Reinforcement Learning

https://openreview.net/forum?id=HkxdQkSYDB

Reinforcement Learning Based Graph-to-Sequence Model for Natural Question Generation

https://openreview.net/forum?id=HygnDhEtvr

3、知识图谱将更加流行

在今年的ICLR会议上，有很多关于知识图谱推理的论文。

火爆的图机器学习，2020年将有哪些研究趋势？

知识图谱例子（来源：https://arxiv.org/abs/1503.00759）

从本质上讲，知识图谱是一种结构化的表示事实的方式。与一般的图不同，知识图谱的节点和边实际上具有一定的含义，例如演员的名字、电影名等。知识图谱中一个常见的问题是，如何回答一些复杂问题，例如“斯皮尔伯格哪些电影在2000年之前赢得了奥斯卡奖？”，这个问题翻译成逻辑查询语言则是：
∨ {Win(Oscar, V) ∧ Directed(Spielberg, V) ∧ProducedBefore(2000, V) } Query2box:

Reasoning over Knowledge Graphs in Vector Space Using Box Embeddings

https://openreview.net/forum?id=BJgr4kSFDS

火爆的图机器学习，2020年将有哪些研究趋势？

Query2Box 推理框架在斯坦福大学Hongyu Ren等人的工作中，他们建议将query嵌入到隐空间当中，而不是作为单个的点（作为矩形框）。

火爆的图机器学习，2020年将有哪些研究趋势？

QUERY2BOX的两种操作及距离函数的几何示例这种方法使得可以自然地执行交操作（即合取 ∧），得到一个新的矩形框。但是对于并操作（即析取 ∨）却并不那么简单，因为它可能会产生非重叠区域。

此外，要使用嵌入来对所有query进行精确建模，嵌入之间的距离函数（通过VC维度进行度量）的复杂性会与图谱中实体的数量成正比。

不过有一个不错的技巧可以将析取（ ∨）query转换为DNF形式，这时候只有在图计算的最后才会进行并操作，这能够有效减少每个子查询的距离计算。

Differentiable Learning of Numerical Rules in Knowledge Graphs

https://openreview.net/forum?id=rJleKgrKwSCMU的Po-Wei

Wang等人在类似主题的一篇文章提出了一种处理数字实体和规则的方法。

火爆的图机器学习，2020年将有哪些研究趋势？

引用知识图谱（Citation KG）示例举例来说，以引用知识图谱（Citation KG），可以有一条规则： influences(Y,X) ← colleagueOf(Z,Y) ∧ supervisorOf(Z,X)∧ hasCitation>(Y,Z) 这是一个典型的情况，即学生X受到其导师Z的同事Y（Y有较高的引用率）的影响。

这个规则右边的每个关系都可以表示为一个矩阵，而寻找缺失连接（missing links）的过程可以表示为关系与实体向量的连续矩阵乘积，这个过程称为规则学习。由于矩阵的构造方式，神经网络的方法只能在分类规则colleagueOf(Z,Y)下工作。

作者的贡献在于，他们通过一种新颖的方法证明了，在实际中并不需要显式地表示这些矩阵，从而有效地处理了类似hasCitation>(Y,Z)、求反运算这样的数字规则，这大大降低了运行时间。

You CAN Teach an Old Dog New Tricks!

On Training Knowledge Graph Embeddingshttps://openreview.net/forum?id=BkxSmlBFvr

在今年的图神经网络（或者说机器学习）中经常出现的一个研究方向是：对现有模型的重新评估，以及在一个公平环境中进行测评。

火爆的图机器学习，2020年将有哪些研究趋势？

上面这篇文章即是其中一个，他们的研究表明，新模型的性能往往取决于试验训练中的“次要”细节，例如损失函数的形式、正则器、采样的方案等。

在他们进行的大型消融研究中，作者观察到将旧的方法（例如RESCAL模型）的超参数进行适当调整就可以获得SOTA性能。当然在这个领域还有许多其他有趣的工作，Allen et al. 基于对词嵌入的最新研究，进一步探究了关系与实体的学习表示的隐空间。Asai et al. 则展示了模型如何在回答给定query的Wikipedia图谱上检索推理路径。

Tabacof 和 Costabello 讨论了图嵌入模型的概率标定中的一个重要问题，他们指出，目前流行的嵌入模型TransE 和ComplEx（通过将logit函数转换成sigmoid函数来获得概率）均存在误校，即对事实的存在预测不足或预测过度。

论文链接如下：On Understanding Knowledge Graph Representation

https://openreview.net/forum?id=SygcSlHFvS

Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question Answering

https://openreview.net/forum?id=SJgVHkrYDH

Probability Calibration for Knowledge Graph Embedding Models

https://openreview.net/forum?id=S1g8K1BFwS

4、图嵌入的新框架

图嵌入是图机器学习的一个长期的研究主题，今年有一些关于我们应该如何学习图表示的新观点出现。

GraphZoom: A Multi-level Spectral Approach for Accurate and Scalable Graph Embedding

https://openreview.net/forum?id=r1lGO0EKDH

康奈尔的Chenhui Deng等人提出了一种改善运行时间和准确率的方法，可以应用到任何无监督嵌入方法的节点分类问题。这篇文章的总体思路是，首先将原始图简化为更小的图，这样可以快速计算节点嵌入，然后再回复原始图的嵌入。

火爆的图机器学习，2020年将有哪些研究趋势？

最初，根据属性相似度，对原始图进行额外的边扩充，这些便对应于节点的k近邻之间的链接。随后对图进行粗化：通过局部谱方法将每个节点投影到低维空间中，并聚合成簇。任何无监督的图嵌入方法（例如DeepWalk、Deep Graph Infomax）都可以在小图上获得节点嵌入。在最后一步，得到的节点嵌入（本质上表示簇的嵌入）用平滑操作符迭代地进行广播，从而防止不同节点具有相同的嵌入。在实验中，GraphZoom框架相比node2vec和DeepWalk，实现了惊人的 40 倍的加速，准确率也提高了 10%。

A Fair Comparison of Graph Neural Networks for Graph Classification

https://openreview.net/forum?id=HygDF6NFPB

已有多篇论文对图分类问题的研究成果进行了详细的分析。比萨大学的Federico Errica 等人在图分类问题上，对GNN模型进行了重新评估。

火爆的图机器学习，2020年将有哪些研究趋势？

他们的研究表明，一个不利用图的拓扑结构（仅适用聚合节点特征）的简单基线能获得与SOTA GNN差不多的性能。事实上，这个让人惊讶的发现，Orlova等人在2015年就已经发表了，但没有引起大家的广泛关注。

Understanding Isomorphism Bias in Graph Data Sets

https://openreview.net/forum?id=rJlUhhVYvSSkolkovo

科学技术研究院的Ivanov Sergey等人在研究中发现，在MUTAG和IMDB等常用数据集中，即使考虑节点属性，很多图也都会具有同构副本。而且，在这些同构图中，很多都有不同的target标签，这自然会给分类器引入标签噪声。这表明，利用网络中所有可用的元信息（如节点或边属性）来提高模型性能是非常重要的。

Are Powerful Graph Neural Nets Necessary? A Dissection on Graph Classification

机器学习人工智能

wishchinYang

0 关注 0 粉丝 0 动态

相关推荐

如何通过7个步骤构建机器学习模型

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。部署和管理机器学习项目通常遵循相同的模式。对于许多组织来说，机器学习模型开发是一项新活动，但是在某种程度上已经建立了以数据为中心的项目构建方法。此外，这种方法由

人工智能 2020-11-19

关于机器学习管道需要了解什么?

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术，他们通常认为，IT主管能够有效调动流程，并使模型表现良好。现实情况是，了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘，而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机

jaybeat 2020-11-17

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 2020-11-16

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 2020-11-16

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

人工智能如今已成为大街小巷的热议话题。企业为了吸引客户和目标用户，在生产产品、提供方案时总会使用机器学习、深度学习等花哨的词汇。但实际上，这些词汇绝不仅是“噱头”而已。科技大厂了解科技发展的主流趋势，且无法承担技术落后的风险，所以他们都已适应了此次计算机革

clong 2020-11-13

10个丰富自我的机器学习项目

机器学习项目有很大的发展潜力，最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。毕竟招聘者一般通过你拥有的技能来判断你的潜力。此外，确保所有数据集都呈现开放状态允许自由访问。很多机器学习课程将这个数据运用于教学目的，它可以预测人类的活动类别，这是一

ohbxiaoxin 2020-11-13

机器学习如何颠覆金融行业

在过去的十年中，金融行业采用了很多前所未有的尖端技术。金融科技初创厂商是智能手机、大数据、机器学习、区块链等新技术的早期采用者，被认为是被更传统的银行和金融机构所效仿的潮流引领者。机器学习和深度学习的最新进展确实推动了计算机视觉和自然语言处理的界限。Sta

Icevivian 2020-11-13

IT自动化和人工智能将在2021年走向何方？

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

CSDN人工智能头条 2020-11-11

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 2020-11-11

理解AI：为什么要在人工智能系统中寻求可解释性呢？

本文转载自公众号“读芯术”。或许这是你第一次听到人工智能前面加“可解释的”这个形容词，但其实它的涵义你一定能理解。可解释的人工智能是指构建AI应用程序的技术和方法，人们借此以理解它们做出特定决策的原因。换句话说，如果我们可以从AI系统获得有关其内部逻辑的解

白飞飞Alan 2020-11-11

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

微软和谷歌一直在积极研究用于训练深度神经网络的新框架，并且在最近将各自的成果开源——微软的PipeDream和谷歌的GPipe。原则上看，他们都遵循了类似的原则来训练深度学习模型。这两个项目已在各自的研究论文中进行了详细介绍，这篇文章将对此进行总结。对于初

深圳克林斯曼 2020-11-09

IT自动化和人工智能将在2021年走向何方?

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

EastCarFxxBlog 2020-11-09

强化学习到底是什么，它如何运作？

强化学习是一种行为学习模型，由算法提供数据分析反馈，引导用户逐步获取最佳结果。不同于使用样本数据集训练机器模型的各类监督学习，强化学习尝试通过反复试验掌握个中诀窍。强化学习与人类在婴幼儿时期的学习过程非常相似。这是一种基于经验的学习流程，机器会不断尝试、不

83153251 2020-11-06

数字营销：AI如何“看透”人类行为模式？

人工智能在市场营销领域取得的成功，揭示了人类的一些思维和行为模式，这些模式可以转化为其他应用程序。市场营销业已成为AI创新的试水之地，尤其是在人类行为建模和AI与人类交互探究层面更具实验价值。目前AI的局限性阻碍了机器使用溯因推理或创造性思维的能力。AI已

lizhengjava 2020-11-05

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

苹果「一呼百应」的号召力在机器学习领域似乎也不例外。新版 Mac 推出还不到两周，谷歌就把专为 Mac 优化的 TensorFlow 版本做好了，训练速度最高提升到原来的 7 倍。对于开发者、工程师、科研工作者来说，Mac 一直是非常受欢迎的平台，也有人用

Micusd 2020-11-19

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

LinkedIn开源Dagli，发布Java机器学习函数库

近年来，越来越多的优秀的机器学习工具不断涌现，如 TensorFlow、 PyTorch、 Caffee 和 CNTK、用于大规模数据的 Spark 和 Kubeflow，以及用于各种通用模型的 scikit-learn、 ML.NET 和最近的 Trip

lgblove 2020-11-16

关于机器学习算法的16个技巧

您可能听说过瑞士军刀。如果没有，请看下面的图片。它包含许多刀片和工具。每个人都专门从事一项特定的任务。在某些情况下，不同的刀片可以完成相同的任务，但性能不同。我将机器学习算法视为瑞士军刀。性能可能会根据任务和数据的特征而变化。例如，对数损失是与所有分类算法

Pokemogo 2020-11-16

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 2020-11-13

24个提高知识和技能极限的机器学习项目

数据科学项目为你提供了一种有前途的方式来启动你在该领域的职业。你不仅可以通过应用它来学习数据科学，还可以在自己的简历上展示一些项目！这是大多数人挣扎和错过的地方。另外，我们确保所有数据集都是开放的并且可以自由访问。它由中型和大型数据集组成，需要一些认真的模

EchoYY 2020-11-12

wishchinYang

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号