2023年,请不要忽略!图神经网络(GNN)这一匹黑马!

点击下方AINLPer,关注我吧

更多干货,第一时间送达

引言

 虽然在过去的几个月里,「ChatGPT以及扩散模型(Diffusion Models)等生成式AI一直是人们关注的焦点,但也请不要忽略图神经网络(GNN)的迅速发展」。经过近几年的发展,图神经网络的研究从纯粹的学术研究一直突破到大规模实际应用,「悄然成为了各种神经网络中的一匹黑马」

 阿里巴巴、谷歌、优步、Twitter等许多大型公司已经在他们的一些核心产品中应用GNN相关技术,其主要原因是:与之前最先进的人工智能架构相比,基于GNN的方法表现出了更为强大的性能。尽管各个核心产品面临的问题类型多种多样并且底层数据集也有一定的差异,但是他们都使用了GNN统一框架作为核心。这也就表明了:「GNN可以提供一个通用且灵活的框架,用于描述和分析任何可能的实体集及其相互关系」

 那么图神经网络(GNN)的实际优势到底是什么呢?为什么图神经网络(GNN)在2023年很重要?那么本文将针对这两个问题展开讨论,除此之外,本文还会分享一些GNN网络的实际应用。

GNN介绍

 首先图数据在世界上无处不在:任何由实体和实体之间的关系组成的系统都可以表示为图。在过去十年中,深度学习算法在自然语言处理、计算机视觉和语音识别等领域取得了突出进展,其主要原因是它们能够通过非线性层从数据中提取高级特征。然而「大多数的深度学习框架都是针对欧几里得结构的数据进行设计定制」(例如:表格数据、图像、文本和音频等),忽略了图结构数据。

 具体来说,传统的人工智能方法主要是从由某种“固定”结构编码的对象中提取信息。例如,图像通常被编码为固定大小的2维像素网格(如下图所示),而文本则被编码为1维单词序列(或“标记”)。而采用图结构来表示数据可以从实体以及实体关系表示中提取更有价值的信息。f8ee9f848ef1ef6eae3cb7f0654de01d.png 然而,「图结构的高度灵活性允许大量可能性来表示同一块数据,在设计能够在该数据上学习并跨不同领域进行概括时,会增加模型架构地复杂性」。在过去二十年中,针对能够大规模处理图形数据的 AI 系统提出了多种方法,但这些进步通常与开发它们的特定案例和设置有关。

 在某些方面,这反映了十年前深度学习革命期间发生的事情,当时语音识别系统曾经由隐马尔可夫模型、高斯混合模型和严重依赖于传统信号处理的计算机视觉系统组合组成,现在逐渐融合到端到端深度学习系统,这些系统甚至经常使用相同的基本架构:Transformer架构(Attention机制)(起源于自然语言处理领域)。

 近年来,一个由高级深度学习研究人员组成的社区,在将不同领域的各种数据问题转化为图问题方面取得了一定地成果。「其中图神经网络及其一些变体一直在在各种深度学习任务中的表现都要优于主流方法」。GNN实际上已经成为解决许多完全不同且看似无关领域的现实问题的重要工具,例如药物发现、推荐系统、交通预测等等。那么目前GNN在更广泛的 AI 研究领域中的作用是什么?让我们来看看一些数字,这些数字揭示了GNN相关研究领域中取得的惊人进步。

AI研究中GNN

 一个不可忽略的影响就是,GNN已经快速找到了自己的定位,即可以学习任何图结构的通用范式并且对其的任何改进都可以泛化到各种领域。世界各地的学术和行业研究人员对这一主题的关注在过去几年中经历了爆炸式增长,这并不奇怪。「如果我们查看过去3年ICLR 和 NeurIPS 这两个国际顶会的接收的文章,不难发现GNN相关的文章增强特别明显」。除此之外,我们发现术语图神经网络「一直在Top3关键字中」a77437533f30ad6f908ad01219625b44.png 最近的一项文献计量学研究系统地分析了这一研究趋势,揭示了已发表相关GNN的研究呈指数级增长,在 2017-2019 年期间平均每年增长 447%。AI现状报告2021 进一步确认图神经网络是 AI 研究出版物中的关键词,“从 2019 年到 2020 年使用量增幅最大”。da885a6a2b95eb9adfd5f3ca845af0e3.png 我们还可以通过查看「图神经网络在不同应用领域的影响来检验图神经网络的多功能性」。下图旨在说明 GNN 论文在 22 个类别中的分布,可以发现在计算机科学中占比最大,但也涉及各个应用领域。32a288aa6c75bcd970d77114c9561744.png

GNN应用案例

 上面可以发现GNN应用广泛,涉及各个领域。那么接下来给大家看看将GNN应用于生产中的大型模型的一些例子和结果。

推荐系统

 Uber Eats 的团队开发了一款送餐应用程序(类似国内的大众点评),最近开始将图形学习技术引入推荐系统,「为该应用程序提供支持,旨在展示最有可能吸引用户的食物」。鉴于在此类设置中处理的图表规模很大(Uber Eats 是全球 500 多个城市超过 320,000 家餐厅的门户),图表神经网络是一个非常有吸引力的选择。

 在对推荐菜肴和餐厅的模型进行首次测试时,该团队报告说,与 Mean Reciprocal Rank、Precision@K 和 NDCG 等关键指标的现有生产模型相比,性能提升了 20% 以上。在将 GNN 模型集成到 Uber Eats 推荐系统(其中包含其他非基于图形的功能)后,开发人员观察到与现有的生产化基线模型相比,AUC 从 78% 跃升至 87%,并且随后进行了影响分析 揭示了基于GNN的特征是迄今为止整个推荐模型中最有影响力的特征。a5bff4d857301071f88a698f716b8d9f.png

谷歌地图交通预测

 图神经网络的另一个极具影响力的应用来自 DeepMind 的一组研究人员,他们展示了如何「将 GNN 应用于交通地图以提高估计到达时间 (ETA) 的准确性」。这个想法是使用 GNN 来学习交通网络的表征,以捕捉网络的底层结构及其动态。

 谷歌地图已经在全球多个主要城市积极大规模部署该系统,新方法大幅降低了用户在查询 ETA 时出现负面结果的比例(与之前的方法相比,准确率提高了 50%)。78f0be185291653185b047b14eb837dd.png

MIT药物发现

 最近 AI 方法在制药领域最著名的应用之一来自麻省理工学院的一项研究项目,该项目后来发表在著名的科学杂志《细胞》上。

「目标是使用 AI 模型通过学习分子的图形表示来预测分子的抗生素活性,从而捕获其潜在的抗生素活性」。在这种情况下,选择用图来编码信息是很自然的,因为抗生素可以表示为小分子图,其中节点是原子,边对应于它们的化学键。

 人工智能模型从这些数据中学习,在某些理想的条件下预测最有希望的分子,随后这些预测在实验室中得到测试和验证,这种方式帮助生物学家从数十亿个可能的候选分子中优先考虑要分析的分子。ac335d2aab2b704e223bf0ea85b68828.png 这导致了一种以前未知的化合物Halicin的鉴定,它被发现是一种高效的抗生素,对抗生素耐药细菌也有效,这一结果被现场专家视为抗生素发现研究的重大突破。这一消息在媒体上引起了轰动,BBC和《金融时报》等媒体都发表了专题文章,但几乎所有人都忽略了一个事实,那就是该化合物是基于GNN人工智能模型而发现的。另一方面,研究人员报告了如何使用定向消息传递深度神经网络方法(GNN的核心特征)对这一发现也至关重要:事实上,与基于图的AI模型相反,其他最先进的模型也针对Halicin进行了测试,未能输出较高的预测排名。

蛋白质发现

「蛋白质设计的目标是创造具有所需特性的蛋白质」,并且可以通过(通常是高成本的)实验方法来完成,这些方法允许研究人员通过直接操纵蛋白质的氨基酸序列来设计新蛋白质。新蛋白质的设计具有巨大的潜在应用,例如开发新药物、酶或材料。

 Baker 实验室最近结合了图形神经网络和扩散技术,创建了一个名为 RosettaFoldDiffusion (RFDiffusion) 的 AI 系统,事实证明它能够设计满足自定义约束的蛋白质结构。AI 模型通过E(n)-Equivariant图神经网络运行,这是一种特殊的 GNN,专门用于处理具有刚性运动对称性(例如空间中的平移、旋转和反射)的数据结构,并被微调为denoiser,即扩散模型(diffusion model)。fd1a37ffbcce66366f63b641315936e7.png RFDiffusion于2022年11月发布,是一个高度复杂的系统,能够解决蛋白质设计中的大量特定任务。针对各种指标和基准进行了测试。实验结果显示,与最先进的模型相比,RFDiffusion解决了100%以上的基准问题(25个中的23个),比之前最先进的深度神经网络模型在设计蛋白质结构图案的支架方面多解决了23个基准问题,并在设计蛋白质粘合剂方面实现了18%的成功率。此外,RFDiffusion的实验成功率根据目标蛋白的不同,从5倍到214倍不等。

 该领域的一些专家认为,RFDiffusion可能是“这十年来结构生物学的最大进步之一,与AlphaFold一起”,这一进步主要依赖于图神经网络的最新进展。

总结

 图神经网络是一个快速发展的领域,有许多令人兴奋的发展,人工智能研究社区在过去几年中大幅增加了对这一领域的关注。在工业领域,图机器学习在不同领域的应用直到最近才开始出现,GNN作为Game Changger已经在一些大规模部署生产模型中确立了自己地位。最近的应用案例为一系列新的应用带来了机会,让我们看看今年该领域又会给我们带来哪些惊喜吧。

推荐阅读

[1] 收藏!ChatGPT等大语言模型(LLMs)测试数据集

[2] 2023年!自然语言处理 10 大预训练模型

[3] NLP不断突破界限,2023 十篇必读的顶级NLP论文!

[4] 你必须要知道的 “ 十二个国际顶级会议 ”!

[5]分享7篇NLP文章,用ChatGPT实现零样本信息提取

点击下方链接🔗关注我们

「资料整理不易,点个再看吧」

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/45852.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI大模型加速RPAxAI时代到来,谁会是RPA领域的杀手级应用?

GPT等AI大模型震撼来袭,基于RPA的超级自动化仍是最佳落地载体 对话弘玑CPO贾岿,深入了解国产RPA厂商对AI大模型的探索与实践 文/王吉伟 关于RPA已死的说法,在中国RPA元年(2019年)投资机构疯狂抢项目之时就已经有了。…

巧用提示词释放chatgpt的潜力

得益于 ChatGPT 和其他大型语言模型,提示词工程学(Prompt Engineering)像风一样已迅速成为我们生活的一部分。这是一个全新的非常受欢迎的领域。也就是说,现在是提高您的技能并在提示词工程学方面变得更好的最佳时机。 如果您想知…

【人工智能】只需要1分钟,GPT就帮我生成了思维导图

自从人工智能横空而出,它在人们的生活中产生了巨大的影响。尤其在企业办公领域,借助人工智能的力量,能够迅速产出丰富多样的内容,无论对于企业还是个人都具有重要的帮助。 想象一下,通过与人工智能的合作,您…

Pandas + ChatGPT:交互式数据分析!

Python Pandas是一个为Python编程提供数据操作和分析功能的开源工具包。这个库已经成为数据科学家和分析师的必备工具。它提供了一种有效的方法来管理结构化数据(Series和DataFrame)。 在人工智能领域,Pandas经常用于机器学习和深度学习过程的预处理步骤。Pandas通过…

计算机专业英语口语app,强烈推荐4款学英语必备的英语口语APP

我们大家都学了这么多年英语了,从小学到大学,但大多数人基本上学的都是应试类型的,甚至是哑巴英语。别人问你一句“How are you?”,你只会回答“I’m fine, thank you. And you?” 其他回答都想不起来。要是发音好也就算了&…

自学英语的手机软件哪个好,负基础

我是一名英语过了大学六级的学生,学英语用软件是学不会的,分享一些方法你参考一下吧 学习英语前的第一步:建立英语思维 为什么大家学英语学得这么累,最后依然对英语糊糊涂涂?原因只有一个——就是我们的学习能力太差…

Linux查询出口IP

查询的方式是通过Linux的curl访问查询ip的网站进行查询 具体步骤: 1.查询查询ip网站的ip 2.配置Linux的hosts文件 在/etc中的hosts文件增加上面的域名和ip(注意:是ifconfig,不是ipconfig) 3.在ssh命令下执行 curl ifc…

为什么百度查到的ip和ipconfig查到的不一样?公网IP和私网IP 有什么区别?

一、查询 我们分别在百度搜ip查询,查询到本机的ip如左图,再利用ipconfig查询到自身ip如右图。 我们能看到这两个地址是不同的,那么不是说,每个主机都只有一个ip地址么,为什么我们查到的两个Ip地址不一样呢&#xff1f…

AI开源路在何方丨2023智源大会精彩回顾

导读 当下,AI开源已经成为了人类开源创新的主战场,是超大规模人类智力协同的最佳组织形式。得益于开源协作持续不断地推进,AI在这个时代飞速发展。可以说如果没有开源社区建设,就不会有今天人工智能的成就。 在2023智源大会AI开源…

洞见数字时代的创新原力,数云原力大会暨 2023TECH 第五届数字中国技术年会开幕

4 月 25 日,神州控股、神州信息、神州数码集团共同主办的数云原力大会暨 2023TECH 第五届数字中国技术年会隆重开幕。开幕式上,数百位投身并关注数字技术、数字产业发展的学者、技术专家、从业者、行业用户齐聚一堂,围绕云原生、数字原生、大…

洞见数字时代的创新原力,数云原力大会暨2023TECH第五届数字中国技术年会开幕

4月25日,神州控股、神州信息、神州数码集团共同主办的数云原力大会暨2023TECH第五届数字中国技术年会开幕。开幕式上,数百位投身并关注数字技术、数字产业发展的学者、技术专家、从业者、行业用户齐聚一堂,围绕云原生、数字原生、大数据、金融…

车载微信要来了?马化腾:正研发纯语音交互接口

作者 | Just 出品 | AI科技大本营(公众号ID:rgznai100) 去年腾讯提出“AI in All”战略之后,马化腾又发布了超级大脑。 5 月 23 日,在广州举行的腾讯“云未来”峰会上,马化腾指出,超级大脑是一个…

联手百度腾讯,恒大汽车押注智能化

作者 | 周继凤 编辑 | 黎明 来源 | 深燃(shenrancaijing) 造车开始进入下半场了。 越来越多的巨头玩家入局抢夺市场。比如,苹果公司被传出将在2021年9月发布首款电动车Apple Car,阿里与浦东新区共同投资打造的高端智能纯电汽车项目“智己汽车”已正式亮…

腾讯车联发布TAI3.0:三步实现汽车智能进化,2个月快速上车

6月24日,“2020腾讯智慧出行新品发布会”在线上举行,全新升级的TAI3.0生态车联网正式亮相,并在新款哈弗F7上进行了真实驾车场景的功能展示。 据介绍,TAI3.0包含两个车载APP——腾讯随行和腾讯爱趣听,以及一个生态开放…

字节有点飘了,现在阿里员工跳槽字节不受待见

上一篇:对不起,实在扛不住了。。。 字节现在厉害了,不愧为宇宙第一大厂。 阿里员工现在跳槽字节被鄙视,阿里经历竟然是减分项。 据某互联网大厂HR发文透漏:现在阿里跳字节真的不受待见,背景是负加成。 他举…

定了!2023年工资发放时间标准

推荐阅读:16 款 ChatGPT 工具,太炸裂了! 劳动法规定公司需要按月支付工资,一旦工资发放日期不合法,公司将会面临巨额赔偿! 最近,知乎就有这样一个案例案例:“深圳一公司 20 号发上月…

什么是伪原创?SEO伪原创该怎么做

伪原创是指在原有的文章或内容基础上进行修改或调整,以产生看起来是全新内容的文章,但实际上并没有创造新的价值。多数情况下,伪原创的目的是为了在文章相对原创的情况下,提高搜索引擎的排名。 一、高质量伪原创 做好伪原创&#…

火车头采集伪原创插件

火车头采集的内容如何伪原创1.先把火车头采集规则写好 然后在调用插件来对内容做一下伪原创或者二次更改处理。 我每个版本都不同,基本上都在其他设置里面选择采集结果处理插件,来处理采集的内容,5118的伪原创处理是采用的dll插件&#xff0…

火车头采集软件如何批量伪原创(火影智能AI文章伪原创)

伪原创并不是一种良好的写作实践,会破坏网络生态环境和侵犯内容创作者的合法权益。 如果您需要大量的高质量文章,可以考虑采用一些更符合法律法规和伦理道德的方法,例如: 原创撰写:自己编写原创文章是最好的方式&…

央企和国企什么级别可以转为公务员?

上一篇:对不起,实在扛不住了。。。 到政府任职的运营商领导越来越多,那么,为什么央企或者国企能到政府任职?或者说为什么能转成公务员呢?答案来了! 一、到政府任职的运营商领导越来越多 2023年1…