MTransE阅读笔记

Multilingual Knowledge Graph Embeddings for Cross-lingual Knowledge Alignment

用于交叉知识对齐的多语言知识图谱嵌入(MTransE)

Abstract

最近的许多工作已经证明了知识图谱嵌入在完成单语知识图谱方面的好处。由于相关的知识库是用几种不同的语言构建的,因此实现跨语言知识对齐将有助于人们构建连贯的知识库,并帮助机器处理不同人类语言之间实体关系的不同表达。不幸的是,通过人工实现这种高度期望的跨舌对齐是非常昂贵且容易出错的。因此,我们提出了 M T r a n s E MTransE MTransE,一个基于推理的多语言知识图谱嵌入模型,以提供一个简单和自动化的解决方案。通过在单独的嵌入空间中编码每种语言的实体和关系, M T r a n s E MTransE MTransE为每个嵌入向量提供了到其他空间中的跨语言对应物的转换,同时保留了单语嵌入的功能。我们部署了三种不同的技术来表示跨语言的过渡,即轴校准,平移向量和线性变换,并得出五个变种 M T r a n s E MTransE MTransE使用不同的损失函数。我们的模型可以在部分对齐的图上进行训练,其中只有一小部分三元组与跨语言对应项对齐。跨语言实体匹配和三重对齐验证的实验显示了良好的效果,一些变体在不同的任务中始终优于其他变体。我们还探讨了 M T r a n s E MTransE MTransE如何保留其单语对应物 T r a n s E TransE TransE的关键属性。

1 Introduction

知识库被建模为知识图谱,存储两个方面的知识:单语知识,包括以三元组形式记录的实体和关系,以及跨语言知识,在各种人类语言中匹配单语知识。

基于嵌入的技术可以帮助提高单语知识的完整性,但将这些技术应用于跨语言知识的问题在很大程度上尚未探索(包括匹配相同实体的语言间链接(ILLs)和表示相同关系的三重对齐(TWA))。

利用知识图谱嵌入跨语言知识比较困难(不同语言的知识图谱中的实体和关系进行映射和转换的过程):

  1. 跨语言转换比任何单语言关系翻译都具有更大的域;
  2. 它适用于实体和关系,这些实体和关系在不同语言之间具有不连贯的词汇表;
  3. 用于训练这种转换的已知对齐通常占知识库的一小部分。

提出多语言知识图谱嵌入模型(MTransE),使用两个组件模型,即知识模型和对齐模型的组合来学习多语言知识图结构。知识模型以特定语言版本的知识图对实体和关系进行编码。对齐模型在不同的嵌入空间中学习实体和关系的跨语言转换,其中考虑了以下三种跨语言对齐的表示:基于距离的轴校准,平移向量和线性变换。

2 Related Work

知识图谱嵌入:
基于推理的方法:TransE、TransH、TransR
非基于翻译的方法:UM、SE、Billined
基于神经的模型:SLM、NTN
基于随机行走的模型:TADW

多语种单词嵌入:LM、CCA、OT

知识库对齐:基于嵌入的方法

3 Multilingual Knowledge Graph Embedding

3.1 Multilingual Knowledge Graphs

L \mathcal L L: 语言的集合
L 2 \mathcal L^2 L2: 表示 L \mathcal L L的2-组合(无序语言对的集合)
语言 L ∈ L L \in \mathcal L LL G L G_L GL表示语言的专用知识图
E L E_L EL: 实体表示 R L R_L RL: 关系表示
T = ( h , r , t ) T=(h, r, t) T=(h,r,t)表示 G L G_L GL中的三元组 h , t ∈ E L r ∈ R L h,t\in E_L \quad r\in R_L h,tELrRL
语言对 ( L 1 , L 2 ) ∈ L 2 , δ ( L 1 , L 2 ) (L_1,L_2)\in \mathcal{L}^2, \delta(L_1,L_2) (L1,L2)L2,δ(L1,L2)表示包含已经在 L 1 L_1 L1 L 2 L_2 L2之间对齐的三元组对的集合

MTransE在知识库的两个方面进行学习:知识模型对来自每种语言特定的图结构的实体和关系进行编码,对齐模型从现有对齐学习跨语言转换。

3.2 Knowledge Model

损失函数:
S K = ∑ L ∈ { L i , L j } ∑ ( h , r , t ) ∈ G L ∥ h + r − t ∥ S_K=\sum_{L\in\{L_i,L_j\}}\sum_{(h, r, t)\in G_L}\|\mathrm{\mathbf h+\mathbf r -\mathbf t}\| SK=L{Li,Lj}(h,r,t)GLh+rt

3.3 Alignment Model

配准模型的目标是构造 L i L_i Li L j L_j Lj向量空间之间的转换。其损失函数如下:
S A = ∑ ( T , T ′ ) ∈ δ ( L i , L j ) S a ( T , T ′ ) S_A=\sum_{(T,T')\in\delta(L_i,L_j)}S_a(T,T') SA=(T,T)δ(Li,Lj)Sa(T,T)

对齐分数 S a ( T , T ′ ) S_a(T,T') Sa(T,T)迭代通过所有对齐的三元组。考虑了三种不同的对准评分技术:基于距离的轴校准、平移向量和线性变换。

基于距离的轴校准: 这种类型的对齐模型根据跨语言对应物的距离对对齐进行惩罚。
采用以下两种评分中的一种:
S a 1 = ∥ h − h ′ ∥ + ∥ t − t ′ ∥ S_{a_1}=\|\mathbf{h}-\mathbf{h}'\|+\|\mathbf{t}-\mathbf{t}'\| Sa1=hh+tt

S a 2 = ∥ h − h ′ ∥ + ∥ r − r ′ ∥ + ∥ t − t ′ ∥ S_{a_2}=\|\mathbf{h}-\mathbf{h}'\|+\|\mathbf{r}-\mathbf{r}'\|+\|\mathbf{t}-\mathbf{t}'\| Sa2=hh+rr+tt

S a 1 S_{a1} Sa1规定,同一实体的正确对齐的多语言表达往往具有紧密的嵌入向量。
S a 2 S_{a2} Sa2将关系对齐的惩罚叠加到 S a 1 S_{a1} Sa1​,以显式收敛相同关系的坐标。

基于轴校准的对齐模型假定每种语言中的条目在空间上的出现情况类似。因此,它通过将给定实体或关系的向量从原语的空间推进到另一种语言的空间来实现跨语言的转换。

平移向量: 该模型将跨语言转换编码为向量。它将对齐整合到图形结构中,并将跨语言转换描述为常规的关系翻译。
这样的模型通过添加对应的平移向量来获得嵌入向量的跨语言转换。
S a 3 = ∥ h + v i j e − h ′ ∥ + ∥ r + v i j r − r ′ ∥ + ∥ t + v i j e − t ′ ∥ S_{a_3}=\left\|\mathbf{h}+\mathbf{v}_{ij}^e-\mathbf{h}'\right\|+\left\|\mathbf{r}+\mathbf{v}_{ij}^r-\mathbf{r}'\right\|+\left\|\mathbf{t}+\mathbf{v}_{ij}^e-\mathbf{t}'\right\| Sa3= h+vijeh + r+vijrr + t+vijet
线性变换: 最后一类对齐模型推导出嵌入空间之间的线性变换。如下所示, S a 4 S_{a4} Sa4 k × k k\times k k×k方阵 M i j e M_{ij}^e Mije学习为从$ L_i$到 L j L_j Lj的实体向量的线性变换,给定 k为嵌入空间的维度。 S a 5 S_{a5} Sa5还引入了关系向量的第二线性变换 M i j r M_{ij}^r Mijr
与轴线校准不同,基于线性变换的对齐模型将跨语言转换视为嵌入空间的拓扑变换,而不假设空间涌现的相似性。
S a 4 = ∥ M i j e h − h ′ ∥ + ∥ M i j e t − t ′ ∥ S_{a_4}=\begin{Vmatrix}\mathbf{M}_{ij}^e\mathbf{h}-\mathbf{h}'\end{Vmatrix}+\begin{Vmatrix}\mathbf{M}_{ij}^e\mathbf{t}-\mathbf{t}'\end{Vmatrix} Sa4= Mijehh + Mijett

S a 5 = ∥ M i j e h − h ′ ∥ + ∥ M i j r r − r ′ ∥ + ∥ M i j e t − t ′ ∥ S_{a_5}=\left\|\mathbf{M}_{ij}^e\mathbf{h}-\mathbf{h}'\right\|+\left\|\mathbf{M}_{ij}^r\mathbf{r}-\mathbf{r}'\right\|+\left\|\mathbf{M}_{ij}^e\mathbf{t}-\mathbf{t}'\right\| Sa5= Mijehh + Mijrrr + Mijett

3.4 Variants of MTransE

结合上述两个分量模型,MTransE最小化如下损失函数 J = S K + α S A J=S_K + \alpha S_A J=SK+αSA,其中 α \alpha α是加权 S K S_K SK S A S_A SA的超参数。

image-20240328163920848

3.5 Training

使用在线随机梯度下降来优化损失函数: θ ← θ − λ ∇ θ J \theta \leftarrow \theta − \lambda\nabla_{\theta}J θθλθJ
θ ← θ − λ ∇ θ J \theta \leftarrow \theta − \lambda\nabla_{\theta}J θθλθJ θ ← θ − λ ∇ θ α S A \theta \leftarrow \theta − \lambda\nabla_{\theta}\alpha S_A θθλθαSA

强制任何实体嵌入向量的 l 2 l_2 l2范数为1的约束,从而将嵌入向量正则化到单位球面上:
(i)它有助于避免训练过程通过收缩嵌入向量的范数而使损失函数平凡地最小化的情况
(ii)它意味着 V a r 4 Var_4 Var4 V a r 5 Var_5 Var5​的线性变换的可逆性

4 Experiments

在两个跨语言任务上对所提出的方法进行评估:跨语言实体匹配和三对齐验证。为了显示MTransE的优势,将LM、CCA和OT改写为它们的知识图等效项。

数据集:WK31

4.1 Cross-lingual Entity Matching

跨语言实体匹配

此任务的目标是在知识库中匹配来自不同语言的相同实体。

评估协议: 每个MTransE变体都是在一个完整的数据集上进行训练的。

结果:

image-20240328171028854

4.2 Triple-wise Alignment Verification

三重对齐验证

这项任务是验证给定的一对对齐的三元组是否是真正的跨语言对应。

评估协议: 通过隔离 20% 的比对集来创建正例。随机破坏正例以生成负例。使用一种简单的基于阈值的分类器。

结果:

image-20240328181831133

4.3 Monolingual Tasks

单语任务

MTransE在处理跨语言任务方面具有很强的能力。MtransE很好地保留了单语知识的特征,在刻画单语关系方面,对齐模型对知识模型没有太大的干扰,但实际上可能会加强它,因为对齐模型统一了知识的连贯部分。

5 Conclusion and Future Work

语任务

MTransE在处理跨语言任务方面具有很强的能力。MtransE很好地保留了单语知识的特征,在刻画单语关系方面,对齐模型对知识模型没有太大的干扰,但实际上可能会加强它,因为对齐模型统一了知识的连贯部分。

5 Conclusion and Future Work

在跨语言实体匹配和三对齐验证任务上的大量实验表明,线性变换技术是这三种技术中最好的。此外,MTransE保留了单语知识图在单语任务中嵌入的关键特性。

深度学习小白,知识图谱方向,欢迎一起交流学习~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/289403.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

蓝桥杯每日一题(floyd算法)

4074 铁路与公路 如果两个城市之间有铁路t11,公路就会t2>1,没铁路的时候t1>1,公路t21。也就是公路铁路永远都不会相等。我们只需要计算通过公路和铁路从1到n最大的那个即可。 floyd是直接在数组上更新距离。不需要新建dis数组。另外一定要记得把邻接矩阵初始…

编程语言|C语言——C语言变量的存储方式

前言 变量是程序中数据的存储空间的抽象。变量的存储方式可分为静态存储和动态存储两种。 静态存储变量通常是在程序编译时就分配一定的存储空间并一直保持不变,直至整个程序结束。在上一部分中介绍的全局变量的存储方式即属于此类存储方式。 动态存储变量是在程序执…

Wireshark 抓包工具与长ping工具pinginfoview使用,安装包

一、Wireshark使用 打开软件,选择以太网 1、时间设置时间显示格式 这个时间戳不易直观,我们修改 2、抓包使用的命令 1)IP地址过滤 ip.addr192.168.1.114 //筛选出源IP或者目的IP地址是192.168.1.114的全部数据包。 ip.sr…

AcWing 2816. 判断子序列(双指针)

—>原题链接 思路: 1.首先定义两个指针 i 和 j 分别指向x和y的起始位置 2.开始循环遍历x和y数组,如果 x[i] y[j] 那么i,否则j,遍历到最后in那么就说明x是y的子序列 图解 上代码: #include <iostream> using namespace std;const int N 111111;int n,m,x[N],y[N]…

2024年黑龙江省安全员C证证模拟考试题库及黑龙江省安全员C证理论考试试题

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2024年黑龙江省安全员C证证模拟考试题库及黑龙江省安全员C证理论考试试题是由安全生产模拟考试一点通提供&#xff0c;黑龙江省安全员C证证模拟考试题库是根据黑龙江省安全员C证最新版教材&#xff0c;黑龙江省安全员…

Git命令及GUI基本操作

不习惯使用Git命令的可移步下面Git GUI基本操作 Git 常用命令 git branch 查看本地所有分支 git status 查看当前状态 git commit 提交 git branch -a 查看所有的分支 git branch -r 查看本地所有分支 git commit -am "init" 提交并且加注释 git remote add orig…

实用攻略:选择最佳项目管理软件!适合远程团队使用!

2019年新冠疫情爆发&#xff0c;这场全球范围的大流行病不仅对经济构成威胁&#xff0c;还引发了大家对经济衰退的担忧。许多先进企业和组织立即转变思路通过远程办公的方式开展工作。本文为大家介绍适合远程团队的项目管理软件&#xff0c;项目管理软件选型指南。 现实中&…

尚宝罗邀您参观2024第13届生物发酵展

参展企业介绍 尚宝罗江苏节能科技股份有限公司坐落于扬州市的北大门素有“中国荷藕之乡”、“中国生态示范县”---宝应。这里环境优美&#xff0c;气候宜人&#xff0c;交通十分便利。 尚宝罗公司占地面积36000平方米,建筑面积15800平方米。公司拥有大型加工设备60台套,精密加…

MySQL数据库高阶语句②

目录 一.子查询与多表查询 1.子查询 2.update子查询 3.多表查询 4.delete子查询 5.exists关键字也用于子查询 6.结果集 二.MySQL视图 1.定义 2.作用场景 3.视图与表的区别与联系 &#xff08;1&#xff09;区别 ①视图是已经编译好的sql语句。而表不是 ②视图没有…

Pytorch入门实战 P4-猴痘图片,精确度提升

目录 一、前言&#xff1a; 二、前期准备&#xff1a; 1、设备查看 2、导入收集到的数据集 3、数据预处理 4、划分数据集&#xff08;8:2&#xff09; 5、加载数据集 三、搭建神经网络 四、训练模型 1、设置超参数 2、编写训练函数 3、编写测试函数 4、正式训练 …

【C++初阶】之类和对象(下)

【C初阶】之类和对象&#xff08;下&#xff09; ✍ 再谈构造函数&#x1f3c4; 初始化列表的引入&#x1f498; 初始化列表的语法&#x1f498; 初始化列表初始化元素的顺序 &#x1f3c4; explicit关键字 ✍ Static成员&#x1f3c4; C语言中的静态变量&#x1f3c4; C中的静…

Linux(3)软件安装-Centos 8.1安装-硬盘分区方案对比-linux上运行jar包-File上传下载

四、软件安装 1、Centos 8.1安装 1.1 安装过程 1、下载 CentOS 8.1 ISO 镜像文件 访问 CentOS 官方网站的下载页面。选择适当的版本&#xff0c;例如 CentOS Linux 8.1 (Linux Kernel 5.10.0-36)。根据您的硬件架构下载对应的 ISO 镜像文件&#xff08;如 CentOS-8.1-x86_6…

vue3全局引入element-plus使用Message教程

文章目录 安装引入 Element Plus和组件样式示例注意安装与引入&#xff1a;按需引入&#xff1a;API 使用&#xff1a;样式问题&#xff1a;组件上下文&#xff1a;版本兼容性&#xff1a;错误处理&#xff1a; 这是 Element UI 的 Vue 3 版本。ElMessage 是 Element Plus 中的…

2024上半年软考软件评测师报名流程及注意事项

2024年5月软考软件评测师报名入口&#xff1a; 中国计算机技术职业资格网&#xff08;http://www.ruankao.org.cn/&#xff09; 2024年软考报名时间暂未公布&#xff0c;考试时间上半年为5月25日到28日&#xff0c;下半年考试时间为11月9日到12日。不想错过考试最新消息的考友…

如何用Flask中的Blueprints构建大型Web应用

本文分享自华为云社区《构建大型Web应用Flask中的Blueprints指南》&#xff0c;作者&#xff1a; 柠檬味拥抱。 什么是Blueprints&#xff1f; 什么是Blueprints&#xff1f; Blueprints是Flask中的一种模式&#xff0c;用于将应用程序分解为可重用的模块。每个蓝图实际上是…

大型网站集群管理负载均衡

课程介绍 结合企业大规模应用&#xff0c;解决应用高并发问题&#xff0c;解决单节点故障问题&#xff0c;缓存数据库的应用。学完掌握知识点&#xff1a;企业应用实现四七层负载均衡&#xff0c;以及Nginx等应用的高可用性&#xff0c;Redis缓存数据库的部署应用以及高可用方…

Mongodb入门到入土,安装到实战,外包半年学习的成果

这是我参与「第四届青训营 」笔记创作活动的的第27天&#xff0c;今天主要记录前端进阶必须掌握内容Mongodb数据库,从搭建环境到运行数据库,然后使用MongodB; 一、文章内容 数据库基础知识关系型数据库和非关系型数据库为什么学习Mongodb数据库环境搭建及运行MongodbMongodb命…

Swift 周报 第四十八期

文章目录 前言新闻和社区苹果突然不造车了&#xff0c;雷军&#xff1a;非常震惊&#xff01;分析师&#xff1a;马斯克或是最大赢家你会爱上的开发者活动 提案通过的提案正在审查的提案 Swift论坛推荐博文话题讨论关于我们 前言 本期是 Swift 编辑组自主整理周报的第四十八期…

SQLiteC/C++接口详细介绍sqlite3_stmt类(八)

返回&#xff1a;SQLite—系列文章目录 上一篇&#xff1a;SQLiteC/C接口详细介绍sqlite3_stmt类&#xff08;七&#xff09; 下一篇&#xff1a; SQLiteC/C接口详细介绍sqlite3_stmt类&#xff08;九&#xff09; 27、sqlite3_column_int 函数 sqlite3_column_int 用于返…

实物档案管理系统是做什么的

实物档案管理系统是用于管理和组织实物档案的信息系统。它的主要功能包括记录、查找、归档实物档案&#xff0c;以及提供相关的管理功能。 具体来说&#xff0c;玖拓智能实物档案管理系统可以帮助单位完成以下任务&#xff1a; 1. 档案登记与归档&#xff1a;将新收到的实物档案…