火爆的图机器学习,2020年将有哪些研究趋势?

2020-02-05 23:41

导语:ICLR 2020 图机器学习全面分析

火爆的图机器学习,2020年将有哪些研究趋势?

2019年绝对是图机器学习(GML)大火的一年,凡是学术会议,图神经网络的会场总会爆满。 

图机器学习的研究之所以在2019年突然变得火热,原因在于,在前几年尽管深度学习在欧氏空间中的数据方面取得了巨大的成功,但在许多实际的应用场景中的数据往往是从非欧式空间生成的。 

正如阿里达摩院曾在2019年所提:“单纯的深度学习已经成熟,而结合了深度学习的图研究将端到端学习与归纳推理相结合,有望解决深度学习无法处理的关系推理、可解释性等一系列问题。” 

在过去的一年里,图机器学习经过了蓬勃的发展,这从各大顶会中图机器学习的火爆场面也可以看出。 

而新的一年已经过去了一个月,那么2020年图机器学习的火热还能持续吗?又将有哪些新的研究趋势呢? 即将于4月份在埃塞俄比亚举办的ICLR 2020是一个能够很好反映这些问题的会议。

这个会议是由深度学习三巨头之二的 Yoshua Bengio 和 Yann LeCun 牵头创办,旨在关注有关深度学习各个方面的前沿研究。

在ICLR 2020中共有150篇投稿与图机器学习有关,而其中有近1/3的论文都被录用了,这也说明图机器学习火热依旧。

我们不妨将这些论文按照理论、应用、知识图谱、图嵌入来划分,从而一窥图机器学习在2020年的研究趋势。


注:文中涉及论文,可关注雷锋网「AI科技评论」微信公众号,并后台回复「2020年GML趋势」下载。

1、GNN理论知识会更加扎实

从目前的形式看,图机器学习的领域在成熟的康庄大道上越走越远,但是图神经网络还有很多进步空间。过去的一年图神经网络不断改进,因此诞生了许多理论研究,在我们对2020年预测之前,先来简单梳理一下图神经网络的重要理论成果吧!

What graph neural networks cannot learn: depth vs width

https://openreview.net/forum?id=B1l2bp4YwS

洛桑联邦理工学院 Andreas Loukas 的这篇论文,无论在影响力、简洁性还是对理论理解的深度上,无疑是论文中的典范。 

它表明,当我们用GNN计算通常的图问题时,节点嵌入的维数(网络的宽度,w)乘以层数(网络的深度,d)应该与图n的大小成正比,即dW=O(n)。 

但现实是当前的GNN的许多实现都无法达到此条件,因为层数和嵌入的尺寸与图的大小相比还不够大。另一方面,较大的网络在实际操作中不合适的,这会引发有关如何设计有效的GNN的问题,当然这个问题也是研究人员未来工作的重点。需要说明的是,这篇论文还从80年代的分布式计算模型中汲取了灵感,证明了GNN本质上是在做同样的事情。 

这篇文章还包含有大量有价值的结论,强烈建议去阅读原文。可关注雷锋网「AI科技评论」微信公众号,后台回复「2020年GML趋势」下载论文。 

同样,在另外两篇论文中,Oono等人研究了GNN的能力。第一篇文章是《图神经网络在节点分类中失去了表达能力》,第二篇文章是《图神经网络的逻辑表达》。

Graph Neural Networks Exponentially Lose Expressive Power for Node Classification

https://openreview.net/forum?id=S1ldO2EFPr

这篇论文表明:“在已知某些条件下的权重,当层数增加时,GCN除了节点度和连通分量以外,将无法学习其他任何内容。”这一结果扩展了“马尔可夫过程收敛到唯一平衡点”的性质,并表明其中收敛速度由转移矩阵的特征值决定。

The Logical Expressiveness of Graph Neural Networks 

https://openreview.net/pdf?id=r1lZ7AEKvB

这篇论文展示了GNN与节点分类器类型之间的联系。在这之前,我们已经了解GNN与WL同构检验一样强大。但是GNN可以获得其他分类功能么?直观上不行,因为GNN是一种消息传递机制,如果图的一个部分和另一个部分之间没有链接,那么两者之间就不会传递消息。

因此论文提出一个简单解决方案:在邻域聚合之后添加一个读出操作,以便每个节点在更新所有要素时与图中所有其他节点都有联系。 

其他在理论上的工作还有很多,包括Hou等人测量GNN的图形信息的使用。以及 Srinivasan 和 Ribeiro提出的基于角色的节点嵌入和基于距离的节点嵌入的等价性讨论。

论文链接如下:

Measuring and Improving the Use of Graph Information in Graph Neural Networks

https://openreview.net/forum?id=rkeIIkHKvS

On the Equivalence between Positional Node Embeddings and Structural Graph Representationshttps://openreview.net/forum?id=SJxzFySKwH

2、新酷应用不断涌现

在过去的一年中,GNN已经在一些实际任务中进行了应用。例如已经有一些程序应用于玩游戏、回答智商测试、优化TensorFlow计算图形、分子生成以及对话系统中的问题生成。

HOPPITY: LEARNING GRAPH TRANSFORMATIONS TO DETECT AND FIX BUGS IN PROGRAMS

https://openreview.net/pdf?id=SJeqs6EFvB

在论文中,作者其提出了一种在Javascript代码中同时检测和修复错误的方法。具体操作是将代码转换为抽象语法树,然后让GNN进行预处理以便获得代码嵌入,再通过多轮图形编辑运算符(添加或删除节点,替换节点值或类型)对其进行修改。为了理解图形的哪些节点应该修改,论文作者使用了一个指针网络(Pointer network),该网络采用了图形嵌入来选择节点,以便使用LSTM网络进行修复。当然,LSTM网络也接受图形嵌入和上下文编辑。

LambdaNet: Probabilistic Type Inference using Graph Neural Networks

https://openreview.net/pdf?id=Hkx6hANtwH 

类似的应用还体现在上面这篇论文中。来自得克萨斯大学奥斯汀分校的作者研究了如何推断像Python或TypeScript此类语言的变量类型。更为具体的,作者给出了一个类型依赖超图(type dependency hypergraph),包含了程序作为节点的变量以及它们之间的关系,如逻辑关系、上下文约束等;然后训练一个GNN模型来为图和可能的类型变量产生嵌入,并结合似然率进行预测。

Abstract Diagrammatic Reasoning with Multiplex Graph Networks

https://openreview.net/pdf?id=ByxQB1BKwH

在智商测试类的应用中,上面这篇论文展示了GNN如何进行IQ类测试,例如瑞文测验(RPM)和图三段论(DS)。具体的在RPM任务中,矩阵的每一行组成一个图形,通过前馈模型为其获取边缘嵌入,然后进行图形汇总。由于最后一行有8个可能的答案,因此将创建8个不同的图,并将每个图与前两行连接起来,以通过ResNet模型预测IQ得分。如下图所示:

火爆的图机器学习,2020年将有哪些研究趋势?

来自:https://openreview.net/pdf?id=ByxQB1BKwH 

Reinforced Genetic Algorithm Learning for Optimizing Computation Graphs

https://openreview.net/pdf?id=rkxDoJBYPBDeepMind

在上面的论文中提出了一种RL算法来优化TensorFlow计算图的开销。先通过标准GNN对图形进行处理,然后产生与图中每个节点的调度优先级相对应的离散化嵌入,最后将嵌入被馈送到遗传算法BRKGA中进行模型训练,从而优化得到的TensorFlow图的实际计算开销。值得注意的是该遗传算法决定每个节点的布局和调度。

火爆的图机器学习,2020年将有哪些研究趋势?

类似的炫酷应用还有Chence Shi的分子结构生成和Jiechuan Jiang玩游戏以及Yu Chen的玩游戏等等。

论文链接如下:Graph Convolutional Reinforcement Learning

https://openreview.net/forum?id=HkxdQkSYDB

Reinforcement Learning Based Graph-to-Sequence Model for Natural Question Generation

https://openreview.net/forum?id=HygnDhEtvr

3、知识图谱将更加流行

在今年的ICLR会议上,有很多关于知识图谱推理的论文。  

火爆的图机器学习,2020年将有哪些研究趋势?

知识图谱例子(来源:https://arxiv.org/abs/1503.00759) 

从本质上讲,知识图谱是一种结构化的表示事实的方式。与一般的图不同,知识图谱的节点和边实际上具有一定的含义,例如演员的名字、电影名等。知识图谱中一个常见的问题是,如何回答一些复杂问题,例如“斯皮尔伯格哪些电影在2000年之前赢得了奥斯卡奖?”,这个问题翻译成逻辑查询语言则是:
∨ {Win(Oscar, V) ∧ Directed(Spielberg, V) ∧ProducedBefore(2000, V) }  Query2box: 

Reasoning over Knowledge Graphs in Vector Space Using Box Embeddings 

https://openreview.net/forum?id=BJgr4kSFDS

火爆的图机器学习,2020年将有哪些研究趋势?

Query2Box 推理框架 在斯坦福大学Hongyu Ren等人的工作中,他们建议将query嵌入到隐空间当中,而不是作为单个的点(作为矩形框)。 

火爆的图机器学习,2020年将有哪些研究趋势?

QUERY2BOX的两种操作及距离函数的几何示例 这种方法使得可以自然地执行 交 操作(即合取 ∧),得到一个新的矩形框。但是对于 并 操作(即析取 ∨)却并不那么简单,因为它可能会产生非重叠区域。

此外,要使用嵌入来对所有query进行精确建模,嵌入之间的距离函数(通过VC维度进行度量)的复杂性会与图谱中实体的数量成正比。

不过有一个不错的技巧可以将析取( ∨)query转换为DNF形式,这时候只有在图计算的最后才会进行 并 操作,这能够有效减少每个子查询的距离计算。

Differentiable Learning of Numerical Rules in Knowledge Graphs

https://openreview.net/forum?id=rJleKgrKwSCMU的Po-Wei 

Wang等人在类似主题的一篇文章提出了一种处理数字实体和规则的方法。

火爆的图机器学习,2020年将有哪些研究趋势?

引用知识图谱(Citation KG)示例 举例来说,以引用知识图谱(Citation KG),可以有一条规则: influences(Y,X) ← colleagueOf(Z,Y) ∧ supervisorOf(Z,X)∧ hasCitation>(Y,Z)  这是一个典型的情况,即学生X受到其导师Z的同事Y(Y有较高的引用率)的影响。 

这个规则右边的每个关系都可以表示为一个矩阵,而寻找缺失连接(missing links)的过程可以表示为关系与实体向量的连续矩阵乘积,这个过程称为规则学习。由于矩阵的构造方式,神经网络的方法只能在分类规则colleagueOf(Z,Y)下工作。 

作者的贡献在于,他们通过一种新颖的方法证明了,在实际中并不需要显式地表示这些矩阵,从而有效地处理了类似hasCitation>(Y,Z)、求反运算这样的数字规则,这大大降低了运行时间。

You CAN Teach an Old Dog New Tricks! 

On Training Knowledge Graph Embeddingshttps://openreview.net/forum?id=BkxSmlBFvr 

在今年的图神经网络(或者说机器学习)中经常出现的一个研究方向是:对现有模型的重新评估,以及在一个公平环境中进行测评。

火爆的图机器学习,2020年将有哪些研究趋势?

上面这篇文章即是其中一个,他们的研究表明,新模型的性能往往取决于试验训练中的“次要”细节,例如损失函数的形式、正则器、采样的方案等。

在他们进行的大型消融研究中,作者观察到将旧的方法(例如RESCAL模型)的超参数进行适当调整就可以获得SOTA性能。 当然在这个领域还有许多其他有趣的工作,Allen et al. 基于对词嵌入的最新研究,进一步探究了关系与实体的学习表示的隐空间。Asai et al. 则展示了模型如何在回答给定query的Wikipedia图谱上检索推理路径。

Tabacof 和 Costabello 讨论了图嵌入模型的概率标定中的一个重要问题,他们指出,目前流行的嵌入模型TransE 和ComplEx(通过将logit函数转换成sigmoid函数来获得概率)均存在误校,即对事实的存在预测不足或预测过度。

论文链接如下:On Understanding Knowledge Graph Representation

https://openreview.net/forum?id=SygcSlHFvS

Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question Answering

https://openreview.net/forum?id=SJgVHkrYDH

Probability Calibration for Knowledge Graph Embedding Models

https://openreview.net/forum?id=S1g8K1BFwS

4、图嵌入的新框架

图嵌入是图机器学习的一个长期的研究主题,今年有一些关于我们应该如何学习图表示的新观点出现。

GraphZoom: A Multi-level Spectral Approach for Accurate and Scalable Graph Embedding

https://openreview.net/forum?id=r1lGO0EKDH

康奈尔的Chenhui Deng等人提出了一种改善运行时间和准确率的方法,可以应用到任何无监督嵌入方法的节点分类问题。 这篇文章的总体思路是,首先将原始图简化为更小的图,这样可以快速计算节点嵌入,然后再回复原始图的嵌入。

 火爆的图机器学习,2020年将有哪些研究趋势?

最初,根据属性相似度,对原始图进行额外的边扩充,这些便对应于节点的k近邻之间的链接。 随后对图进行粗化:通过局部谱方法将每个节点投影到低维空间中,并聚合成簇。任何无监督的图嵌入方法(例如DeepWalk、Deep Graph Infomax)都可以在小图上获得节点嵌入。 在最后一步,得到的节点嵌入(本质上表示簇的嵌入)用平滑操作符迭代地进行广播,从而防止不同节点具有相同的嵌入。 在实验中,GraphZoom框架相比node2vec和DeepWalk,实现了惊人的 40 倍的加速,准确率也提高了 10%。

A Fair Comparison of Graph Neural Networks for Graph Classification 

https://openreview.net/forum?id=HygDF6NFPB

已有多篇论文对图分类问题的研究成果进行了详细的分析。比萨大学的Federico Errica 等人在图分类问题上,对GNN模型进行了重新评估。


火爆的图机器学习,2020年将有哪些研究趋势?

他们的研究表明,一个不利用图的拓扑结构(仅适用聚合节点特征)的简单基线能获得与SOTA GNN差不多的性能。事实上,这个让人惊讶的发现,Orlova等人在2015年就已经发表了,但没有引起大家的广泛关注。

Understanding Isomorphism Bias in Graph Data Sets

https://openreview.net/forum?id=rJlUhhVYvSSkolkovo 

科学技术研究院的Ivanov Sergey等人在研究中发现,在MUTAG和IMDB等常用数据集中,即使考虑节点属性,很多图也都会具有同构副本。而且,在这些同构图中,很多都有不同的target标签,这自然会给分类器引入标签噪声。这表明,利用网络中所有可用的元信息(如节点或边属性)来提高模型性能是非常重要的。

Are Powerful Graph Neural Nets Necessary? A Dissection on Graph Classification 

https://openreview.net/forum?id=BJxQxeBYwH

另外还有一项工作是UCLA孙怡舟团队的工作。这项工作显示如果用一个线性近邻聚合函数取代原有的非线性近邻聚合函数,模型的性能并不会下降。这与之前大家普遍认为“图数据集对分类的影响并不大”的观点是相反的。同时这项工作也引发一个问题,即如何为此类任务找到一个合适的验证框架。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/49764.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ucla研究生计算机科学,详解UCLA研究生录取数据,达到什么标准才能稳被录?

原标题:详解UCLA研究生录取数据,达到什么标准才能稳被录? 加州大学洛杉矶分校(UCLA)成立于1919年。它是继加州大学伯克利分校和加州大学戴维斯分校之后的第三所加州大学。 UCLA经常被评为世界顶尖大学之一。它在2019年USNews上评为美国排名第…

ucla研究生计算机科学,揭秘UCLA研究生录取数据,达到什么标准才能稳被录?

原标题:揭秘UCLA研究生录取数据,达到什么标准才能稳被录? 加州大学洛杉矶分校(UCLA)成立于1919年。它是继加州大学伯克利分校和加州大学戴维斯分校之后的第三所加州大学。 UCLA经常被评为世界顶尖大学之一。它在2019年USNews上评为美国排名第…

2018 ucla计算机排名,2018福布斯最具价值美国大学排名:加州UCLA位列榜首!

对于美国留学的申请来说,也许大家在选校过程中都会比较倾向于USNEWS的院校排名榜。但是,怎样从多方面更多的了解你想要选择的学校呢?美国著名的权威财经杂志《福布斯》根据净价格、净债务、校友收入、按时毕业、学校质量等指标进行排名&#…

加州ucla 计算机学校,美国加州大学洛杉矶分校UCLA计算机硕士CS录取

原标题:美国加州大学洛杉矶分校UCLA计算机硕士CS录取 【背景介绍】 H同学,美国本科,CS; GPA 3.79/4.0,GRE 332,免TOEFL; University of California-Los Angeles,MS in Computer Science 加州大学洛杉矶分校…

ucla 计算机网络,2020年UCLA计算机工程排名珍贵干货专业讲解

原标题:2020年UCLA计算机工程排名珍贵干货专业讲解 UCLA著名的理由很多,当中包含它拥有800万册以上藏书的图书馆,得奖连连的体育团体(UCLA的篮球队在美国NCAA大学联赛中获得冠军最多,号称篮球大学);直到去年为止UCLA获得99次美国全…

吾剑未尝不利,国内Azure平替,科大讯飞人工智能免费AI语音合成(TTS)服务Python3.10接入

微软Azure平台的语音合成(TTS)技术确实神乎其技,这一点在之前的一篇:含辞未吐,声若幽兰,史上最强免费人工智能AI语音合成TTS服务微软Azure(Python3.10接入),已经做过详细介绍,然则Azure平台需要信用卡验证,有一定门槛&…

关于讯飞科大语音识别SDK导入的10407问题

一、问题 使用科大讯飞SDK做在线语音识别,参考别人项目在Java中实现在线语音识别实现的时候, 因为导入了别人SDK中的.so文件,所以使用别人Appid的时候项目可以正常运行,但是采用自己的Appid就会出错,出现错误如下&am…

科大讯飞语音合成实例

代码地址如下:http://www.demodashi.com/demo/13209.html 前言 今天讲讲科大讯飞的语音合成功能吧 涉及以下内容: 1. 在科大讯飞平台上创建应用 2. 在androidstudio中的配置 3. 语音合成相关代码 4. 语音合成工具类SpeechHelper的调用 5. 使用过程…

Android 科大讯飞离线语音识别

最近Boss让我开发一个离线语音听写功能 , 可是我发现科大讯飞的离线版本下架了 , 也看了很多地方如百度语音....... 都没发现有离线版本 , 然而今天突然发现科大讯飞的离线听写又上架了 这就让我很开心 . 我就立马把它下载了下来,集成到我的项目中去 . 然后经过一个小时的努力…

Python调用科大讯飞语音合成离线SDK

Python调用科大讯飞语音合成离线SDK 科大讯飞语音合成技术代码展示总结 科大讯飞语音合成技术 科大讯飞语音合成技术在国内是领先的,如果单纯想要Python语言对其进行编写,是不支持的。故我们可以采用对其离线C语言的SDK进行调用,从而达到我们…

科大讯飞SDK下载

科大讯飞SDK下载 科大讯飞作为中国最大的智能语音技术提供商,在智能语音技术领域有着长期的研究积累,并在中文语音合成、语音识别、口语评测等多项技术上拥有国际领先的成果。今天就带领大家初涉科大讯飞,成为科大讯飞语音开发者。 本文只介绍…

详解科大讯飞语音识别

公司的项目要用到一个语音识别所以就弄了一下,国内的科大讯飞的名气比较响一些所以就选用了科大讯飞,废话不多说直接开干 1,下载sdk,注册获取APPid,这都不废话,需要什么就下载什么 2,把下载的…

百度移动端和PC蜘蛛的区别

百度移动端和PC蜘蛛分别是什么,如何让百度做到针对性抓取 众所周知,百度蜘蛛大体上分为百度移动端蜘蛛和百度PC端蜘蛛,百度移动端和百度PC端蜘蛛又可分为百度高权重蜘蛛、百度低权重蜘蛛(百度官方并没有承认的)以及百…

百度蜘蛛的抓取方式有哪些

做seo的人都知道,百度蜘蛛对网站的抓取是间歇性的,需要根据网站的质量、网站的权重以及网站类型的大小,来决定抓取的频率。百度蜘蛛最喜欢的就是抓取网站文章了,所以网站需要保持每日的文章更新。那么百度蜘蛛的抓取方式有哪些呢&…

360浏览器模拟百度搜索引擎蜘蛛访问

一般用在网站被挂马以后,直接访问没有问题,可以通过模拟百度或其他搜索引擎来访问,即可发现问题。比如下面的例子,直接访问没问题,使用模拟搜索引擎访问即可发现问题。 比如访问一个针对搜索引擎挂马的网页&#xff1…

百度蜘蛛简介

百度蜘蛛简介 工作机制百度蜘蛛的工作要素百度蜘蛛原理的应用Baiduspider对一个网站服务器造成的访问压力如何?Baiduspider多长时间之后会重新抓取我的网页? 工作机制 百度蜘蛛的构建的原理。搜索引擎构建一个调度程序,来调度百度蜘蛛的工作…

百度蜘蛛IP段大全

百度蜘蛛(Baiduspider)爬取 进行网站日志分析的时候,常见到很多不同IP段的百度蜘蛛,为了方便大家更好的进行日志分析,下面列举了百度不同IP段常见蜘蛛的一些详情情况 121.14.89.*,此ip段为新站考察蜘蛛,通常有它光顾的…

元宇宙技术在几年后质变,迎来体验终端世界

京东集团高级副总裁、京东探索研究院院长陶大程京东集团高级副总裁、京东探索研究院院长陶大程是京东“产业元宇宙”的提出者和构建者。他谈到,希望通过构建元宇宙供应链降低实体经济参与数字经济的门槛,帮助实体经济完成数实融合的商业转型,…

元宇宙是怎样让虚拟与现实融合的?

在数字化不断推进的当下,如何将虚拟的数字世界和现实世界更好地融合,成为一个首要的目标。元宇宙正是这样一个利用多种信息技术,打造出了一个虚拟与现实高度融合的数字空间。在元宇宙中,用户不只是对数字内容的浏览、查看&#xf…

元宇宙的本质特征是五大融合

元宇宙的本质特征是五大融合:数字世界与物理世界的融合、数字经济与实体经济的融合、数字生活与社会生活的融合、数字资产与实物资产的融合、数字身份与现实身份的融合。元宇宙并非只是“虚拟空间”,发展元宇宙的关键是“融合”。 1.数字世界与物理世界…