Commonsense Knowledge Base Completion with Structural and Semantic Context

摘要

与研究较多的传统知识库(如Freebase)相比,常识性知识图(如ATOMIC和ConceptNet)的自动知识库补全提出了独特的挑战。常识知识图使用自由形式的文本来表示节点,与传统知识库相比,导致节点数量增加了几个数量级(与Freebase (FB15K237)相比,ATOMIC中的节点数量增加了18倍)。重要的是,这意味着更稀疏的图结构——这是现有的KB补全方法面临的主要挑战,这些方法假设在相对较小的节点集上密集连接的图。

在本文中,我们提出了新的知识库补全模型,可以通过利用节点的结构和语义上下文来解决这些挑战。具体来说,我们研究了两个关键思想:(1)从局部图结构中学习,使用图卷积网络和自动图密度化;(2)从预训练的语言模型到知识图的迁移学习,以增强知识的上下文表示。我们描述了将这两个来源的信息合并到一个联合模型中的方法,并提供了在ATOMIC上完成知识库和在ConceptNet上使用排名指标进行评估的第一个经验结果。我们的结果证明了语言模型表示在提高链接预测性能方面的有效性,以及在子图上训练时从局部图结构学习的优势(ConceptNet的MRR增加1.5点)。对模型预测的进一步分析揭示了语言模型能够很好地捕获的常识类型 

1.引言与动机 

虽然在传统知识库(如Freebase)的知识库补全方面已经有了大量的工作,但对于ATOMIC (Sap et al . 2019)和ConceptNet (Speer and Havasi 2013)等常识性知识图的知识库完成方面的工作相对较少。本文的明确目标是确定常识性知识库完成中的独特挑战,研究解决这些挑战的有效方法,并提供全面的经验见解和分析。

补全常识性KGs的关键挑战是图的规模和稀疏性与传统的kb不同,常识性kb由由非规范化、自由格式的文本表示的节点组成,如图1所示。例如,节点“防止蛀牙”和“蛀牙”在概念上是相关的,但不是等价的,因此表示为不同的节点。图的概念多样性和表达性是表示常识的必要条件,这意味着节点的数量要大几个数量级,而且图比传统的kb要稀疏得多。例如,像FB15K-237这样的百科全书式知识库(Toutanova和Chen 2015)的密度是ConceptNet和ATOMIC的100倍(图2所示的节点度)。

 

图1:来自ConceptNet的子图说明了节点的语义多样性。蓝色虚线表示要添加到图中的潜在边

在这项工作中,我们提供了关于常识知识库的稀疏性如何对隐式假设密集连接图的现有知识库补全模型构成挑战的经验见解。图3提供了这一证据的简要预览,其中,当我们降低FB15K-237的图密度时,高性能KB补全模型ConvTransE (Shang et al . 2019)的性能会迅速下降。 

 

图2:热图显示了x轴上属于指定bin的节点的百分比。该图说明了相对于标准KB补全基准(FB15K-237),常识性KB的稀疏性。 

 

图3:使用ConvTransE模型的FB15K-237数据集,不同图密度值(log scale)下KB Completion Scores的下降趋势。 

这激发了研究常识知识库补全新方法的强烈需求。我们认为,新方法需要更好地适应所有节点(包括结构和语义)之间的隐式概念连通性,而不仅仅是在现有常识知识库中显式编码的。具体来说,我们研究了两个关键思想:(1)从局部图结构中学习,使用图卷积网络和自动图密度化。(2)将学习从语言模型转移到知识图,以提高节点的上下文表示。

为了整合图结构信息,我们提出了一种基于图卷积网络(GCN)的方法(Kipf and Welling 2017),根据节点的局部邻域将节点的表示上下文化。对于迁移学习,我们提出了将预训练语言模型(Devlin et al . 2019)微调到常识性KGs的有效方法,从本质上实现了从语言到知识的迁移学习。我们的工作分享了Petroni等人(2019)最近的工作的高水平精神,该工作展示了使用预训练的LMs来重建知识库条目,但我们提供了一个专门针对常识知识库的更集中的研究。实证分析表明,尽管GCNs在各种密集连接图上有效(Schlichtkrull等人2018),但在常识知识库上却没有那么有效,因为稀疏连接不允许有效的知识传播。因此,我们提出了一种基于节点间语义相似度评分的自动图密度化方法。最后,我们强调了使用来自图结构和语言模型的信息来训练模型所需的策略。 

 

 Our main contributions are highlighted below:

  • 1.与传统的百科式知识库完井相比,关于常识知识库补全的独特挑战的经验见解。
  • 2. 新颖的知识库补全方法,对现有知识库中明确可用的知识的隐式结构和语义上下文进行建模。
  • 3.在ConceptNet上使用排名指标对知识库完成和评价进行了ATOMIC的第一个实证结果。
  • 4. 对语言模型捕获的常识性知识类型的分析和见解。

总之,我们的研究结果表明,迁移学习通常比从图结构中学习更有效。此外,我们发现图结构确实可以提供互补信息,从而提高性能,特别是在使用子图进行效率训练时。 

2.Knowledge Graphs 

在建立常识的图形结构表示方面已经有了一些努力(Lenat 1995;Speer and Havasi 2013;Cambria, Olsher, and Rajagopal 2014;Sap et al 2019)。我们将实验重点放在两个重要的知识图上:ConceptNet和ATOMIC。表1提供了这两个图的统计数据,以及FB15K-237——一个标准的KB补全数据集。

ConceptNet-100K2: CN-100K包含关于世界的一般常识事实。这个版本(Li et al . 2016)包含了来自ConceptNet (Speer and Havasi 2013)的开放思维常识(OMCS)条目。图中的节点平均包含2.85个单词。我们使用数据集的原始分割,并将两个提供的开发集结合起来创建一个更大的开发集。开发集和测试集各由1200个元组组成。

ATOMIC3: ATOMIC知识图包含关于日常事件的社会常识性知识。数据集指定事件中参与者的效果、需求、意图和属性。节点平均短语长度(4.40 words)略高于CN-100K。一个源实体和关系可能存在多个目标。在关系类型不需要注释的情况下,此图中的元组也可能包含一个none目标。创建原始数据集分割是为了使训练和评估分割之间的种子实体集互斥。由于KB补全任务要求实体至少被看到一次,因此我们为数据集创建了一个新的随机80-10-10分割。开发集和测试集分别由87K元组组成。

3 Machine Commonsense Completion 

我们研究了补全常识知识图谱的两个关键思想:1)从语言到知识图的迁移学习和2)从图结构的学习。为了解决常识KGs的稀疏性问题,我们使用合成语义相似链接来丰富图的连通性,从而使GCNs能够有效地使用。我们模型的整体架构如图4所示

3.1Problem Formulation 

 

3.2Transfer Learning from Text to Knowledge Graphs 

从语言到知识图谱的迁移学习最近被证明对常识知识图谱的构建是有效的(Bosselut et al . 2019)。为了从语言转移到知识图进行补全,我们对BERT (Devlin et al . 2019)进行了微调,利用被掩盖的语言建模损失,并根据节点的文本短语获得节点的丰富语义表示。这允许BERT调整到KG的特定文本样式。调优的输入是用于表示KG中的节点的唯一短语列表。模型的输入格式为,其中e¯i是由节点表示的自然语言短语。我们使用BERT模型最后一层的[CLS]令牌表示作为模型中的节点表示。我们将BERT模型得到的节点嵌入矩阵表示为,其中M为BERT嵌入的维数。

3.3Learning from Graph Structure 

图卷积网络(GCNs) (Kipf and Welling 2017)在整合图中节点的局部邻域信息方面是有效的。图卷积编码器以图G为输入,将每个节点编码为所有节点的d维嵌入。GCN编码器的操作方式是从一个节点向它的邻居发送消息,可以选择由边指定的关系类型进行加权。该操作在多个层中进行,包含从一个节点到另一个节点的多个跃点的信息。最后一层的表示用作节点的图嵌入。几种变体(Schlichtkrull et al . 2018;Velickovi等人(2018)最近提出了这些模型,所有这些模型都使用相同的底层局部邻域聚集机制。我们选择使用GCN的一个版本,它允许我们1)参数化与边对应的关系类型,2)在聚合期间考虑节点邻居的重要性。给定具有R个关系类型的图G和具有L层的GCN,计算第1层节点ei的节点表示的操作为:

其中,Ji表示图中节点ei的邻居,Wl是层1特定的线性投影矩阵。初始节点表示h0 i是使用嵌入层计算的。方程1中的第二项表示节点的自连接,用于将信息从一层传播到下一层。αr是边的关系类型的权值,β I是表示ei的每个邻居的相对重要性的向量:

 

Graph Densification

常识KGs的稀疏性使得GCNs在节点的邻域上执行信息传播具有挑战性。为了解决这个问题,我们在语义相似的节点之间添加了合成边,以提高图嵌入的学习速度。这些边缘形成了一种新的合成sim关系,仅用于计算图嵌入而不被解码器评分。为了形成这些边,我们使用前面描述的微调BERT模型来提取节点表示,并使用这些表示来计算图中所有节点对之间的余弦相似度。

在计算两两相似度时,我们使用硬阈值τ来过滤最相似的节点对。这个阈值是对每个图使用不同的标准来计算的,每个标准都优先考虑这些链接的精度。对于CN100K(122,618条sim边中τ = 0.95的结果),我们绘制了所有节点对之间的成对相似值分布,并选择顶部的σ/2对节点来形成这些合成链接,其中σ为正态分布的成对相似分布的标准差。对于ATOMIC (τ = 0.98导致89,682条sim边),我们获得了非正态的两两相似性分布,因此使用阈值(测量到2小数点),该阈值只会在图中增加最多100K条边5。这一步之后,我们得到一组边。 

3.4Progressive Masking for Fusion 

使用来自GCNs和BERT的节点嵌入的模型往往过度依赖BERT嵌入,使图嵌入无效(我们使用随机排列测试验证这一点(Fisher, Rudin, and Dominici 2018),我们在一个小批量中随机洗牌图嵌入,并观察到性能几乎没有下降)。在训练开始时,图嵌入不提供信息,而微调的BERT嵌入提供有用的信息-导致模型安全地忽略图嵌入为了防止这个问题,我们随机屏蔽BERT嵌入,从开始的全零掩码到100个epoch结束的全一掩码。对于前100个epoch,被遮挡的维度比率设置为(epoch/100)。这种策略迫使模型依赖于两个信息源。类似的技术被用于通过屏蔽源中的标记来强制多模态机器翻译模型依赖于图像(Caglayan et al 2019)。

3.5Convolutional Decoder

3.6Subgraph Sampling

随着图大小的增加,在内存中使用整个图进行训练变得计算密集。具体来说,在整个图上执行图卷积并使用解码器计算图中所有节点的分数是密集的。例如,具有GCN和BERT表示的atom模型占用~ 30GB内存,在Quadro RTX 8000 GPU上进行训练需要8-10天。因此,我们选取较小的子图进行训练。我们用不同的采样标准进行了实验,发现均匀随机采样的边缘提供了最好的性能对于图密度化,我们将子图中所有跨越语义相似阈值τ的节点对连接起来。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/124908.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Pythonの类

Python是一种面向对象编程语言,因此类在Python中是很重要的概念。类是一种定义数据和行为的模板,可以创建对象并针对特定的问题对其进行操作。 在Python中,类的定义以关键字"class"开头,后跟类的名称。类可以包含方法和…

网络编程相关知识

写一个应用程序,让这个程序可以使用网络通信,这里就需要调用传输层提供的api,传输层提供协议,主要是两个: UDP,TCP,它们分别提供了一套不同的api,socket api. UDP和TCP UDP:无连接,不可靠传输,面向数据报,全双工 TCP:有连接,可靠传输,面向字节流,全双工 一个客户端可以连接多…

arco-design-vue的tree组件实现右击事件

arco-design-vue的tree组件实现右击事件 业务中需要使用到tree组件,并且还要对tree实现自定义鼠标右击事件。在arco-design-vue的文档中,可以明确的看到,tree组件并没有右击事件的相关回调,那要如何实现呢?&#xff1f…

高等数学教材重难点题型总结(四)不定积分

难点在于量级,不定积分一定要多练多见才能游刃有余~ 1.利用求导公式验证等式 2.计算不定积分

亚马逊秋季促销指南——如何更好的利用促销?

最新消息,亚马逊官方宣布将会在10月份举行Prime会员大促,覆盖多个站点,亚马逊卖家们一定要抓住这波促销机会,在这个秋季再冲一把!但是还有一些小白玩家可能对于亚马逊促销了解不够,那么接下来我要讲的这些准…

[SpringBoot3]博客管理系统(源码放评论区了)

八、博客管理系统 创建新的SpringBoot项目,综合运用以上知识点,做一个文章管理的后台应用。依赖: Spring WebLombokThymeleafMyBatis FrameworkMySQL DriverBean Validationhutool 需求:文章管理工作,发布新文章&…

Databend 数据集成方案 | Data Infra 第 15 期

本期的 Data Infra 直播活动我们邀请到了 Databend Cloud 研发工程师-韩山杰,与大家分享主题为《 Databend 数据集成方案》的相关知识。 在本次分享中,你将会学到在云上基于 Databend 及 Databend Cloud 构建应用,掌握 Databend CDC 和 Data…

基于改进莱维飞行和混沌映射的粒子群优化算法(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

[国产MCU]-W801开发实例-MQTT客户端通信

MQTT客户端通信 文章目录 MQTT客户端通信1、MQTT介绍2、W801的MQTT客户端相关API介绍3、代码实现本文将详细介绍如何在W801中使用MQTT协议通信。 1、MQTT介绍 MQTT 被称为消息队列遥测传输协议。它是一种轻量级消息传递协议,可通过简单的通信机制帮助资源受限的网络客户端。 …

Sumo中Traci.trafficlight详解(上)

Sumo中Traci.trafficlight详解(上) 记录慢慢学习traci的每一天,希望也能帮到你 文章目录 Sumo中Traci.trafficlight详解(上)Traci.trafficlight信号灯参数讲解1.getAllProgramLogics(self,tlsID)2.getBlockingVehicle…

排序算法的稳定性

稳定性:对于一个数,经过多次排序,保留一个数之间的相对次序 在基础类型数据上,稳定性用处不大 在非基础类型上,可以做到对于相同元素来说,排完序相同元素之间的相对次序不变 归并排序在merge的过程中先拷贝…

Vulnhub: Masashi: 1靶机

kali:192.168.111.111 靶机:192.168.111.236 信息收集 端口扫描 nmap -A -sC -v -sV -T5 -p- --scripthttp-enum 192.168.111.236查看80端口的robots.txt提示三个文件 snmpwalk.txt内容,tftp服务在1337端口 sshfolder.txt内容&#xff0c…

【电路参考】缓启动电路

一、外部供电直接上电可能导致的问题 1、在热拔插的过程中,两个连接器的机械接触,触点在瞬间会出现弹跳,电源不稳,发生震荡。这期间系统工作可能造成不稳定。 2、由于电路中存在滤波或大电解电容,在上电瞬间&#xff…

windows苹果商店上架ipa(基于appuploader)

参考文章: 上传ipa到appstore详细步骤 1、苹果商店地址:https://appstoreconnect.apple.com/apps 2、创建我的app 使用hbuilderx或apicloud云打包后,会生成一个ipa文件,而iphone是无法直接安装这个ipa文件的,需要将这…

大数据课程L2——网站流量项目的算法分析数据处理

文章作者邮箱:yugongshiye@sina.cn 地址:广东惠州 ▲ 本章节目的 ⚪ 了解网站流量项目的算法分析; ⚪ 了解网站流量项目的数据处理; 一、项目的算法分析 1. 概述 网站流量统计是改进网站服务的重要手段之一,通过获取用户在网站的行为,可以分析出哪些内…

uni-app之android原生插件开发

一 插件简介 1.1 当HBuilderX中提供的能力无法满足App功能需求,需要通过使用Andorid/iOS原生开发实现时,可使用App离线SDK开发原生插件来扩展原生能力。 1.2 插件类型有两种,Module模式和Component模式 Module模式:能力扩展&…

WordPress(4)关于网站的背景图片更换

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、更改的位置1. 红色区域是要更换的随机的图片二、替换图片位置三.开启随机数量四.结束前言 提示:这里可以添加本文要记录的大概内容: 例如:随着人工智能的不断发展,机器学习这门技术也…

[B题]2023 年全国大学生数学建模比赛思路、代码更新中.....

目录 💥1 概述 📚2 题目下载 🎉3 参考文献 🌈4 思路、代码更新..... 💥1 概述 单波束测深是利用声波在水中的传播特性来测量水体深度的技术。声波在均匀介质中作匀 速直线传播,在不同界面上产生反射&…

脚本:python实现樱花树

文章目录 代码效果 代码 from turtle import * from random import * from math import * def tree(n, l):pd () # 下笔# 阴影效果t cos ( radians ( heading () 45 ) ) / 8 0.25pencolor ( t, t, t )pensize ( n / 3 )forward ( l ) # 画树枝if n > 0:b random () *…

使用CUDA计算GPU的理论显存带宽

文章目录 一、显存带宽和理论显存带宽1. 显存带宽2. 理论显存带宽1)计算公式2)举例 二、利用CUDA计算理论显存带宽 一、显存带宽和理论显存带宽 1. 显存带宽 显存带宽是指显存和GPU计算单元之间的数据传输速率。 显存带宽越大,意味着数据传…