论文笔记:Pre-training to Match for Unified Low-shot Relation Extraction

论文来源:ACL 2022

论文地址:https://aclanthology.org/2022.acl-long.397.pdf 

论文代码:https://github.com/fc-liu/MCMN

(笔记不易,请勿恶意转载抄袭!!!) 


目录

Abstract

Introduction

Multi-Choice Matching Networks

Multi-choice Prompt

Instance Encoder

Multi-choice Matching and Prediction

Training Loss

Training Strategies for Multi-Choice Matching Networks

Triplet-Paraphrase Construction

Triplet-Paraphrase Meta Pre-training

Online Task Adaptation

 Experiments


Abstract

        Low-shot RE旨在识别样本很少甚至没有样本的新关系。本文提出多选择匹配网络来统一低样本关系抽取。为了填充零样本和小样本关系抽取之间的差距,提出了triplet-paraphrase元训练,利用triplet-paraphrase预训练零样本标签匹配能力,利用元学习范式学习少样本实例概括能力。

Introduction

        零样本RE和少样本RE要求模型具备不同的基本能力:零样本RE建立在标签语义匹配能力之上,这要求模型充分利用给定新关系的标签语义,并基于其底层语义匹配关系和查询实例;少样本RE是建立在实例语义概括能力之上,这要求模型通过概括少样本实例的关键信息来快速推广到新的关系。由于零样本RE和少样本RE之间的根本差异,现有的模型都是单独学习来处理两种情况下的RE任务。

        本文提出通过回归关系抽取的本质来统一低样本RE。从根本上讲,关系提取可以看做一个多项选择任务,给定上下文中的两个实体,RE系统需要从一组预定义的关系类别中匹配最合适的关系,或者others,即与上述关系均不匹配。其中,完成多项选择匹配所需的信息可以从关系类别名称或从少量实例中概括出来。

        基于此,本文提出了多选择匹配网络MCMN来统一低样本RE。如下图所示,MCMN将所有候选关系描述转换为多选择提示,然后将输入实例与多选择实例链接起来,并通过预先训练的编码器来获取输入实例和候选关系的语义表示,最后通过直接匹配关系表示和实例表示进行关系抽取

 为了使MCMN同时具备标签语义匹配能力和实例语义概括能力,引入三triplet-paraphrase元预训练对MCMN进行预训练。其中,包括两个关键部分:

  • text-triple-text paraphrase模块:可以生成大规模伪关系抽取数据用来预训练MCMN的标签语义匹配能力;
  • 一种元学习风格的训练算法,使MCMN具备实例语义概括能力,可以快速概括不同的关系提取任务。

        具体而言,给定大规模原始文本,triplet-paraphrase首先通过OpenIE工具包抽取三元组,然后基于抽取的三元组使用RDF-to-text生成模型生成原始文本的paraphrases。这样,可以通过收集生成的句子和预测的三元组来获得大规模的伪标注数据。这样的语料库可以通过将paraphrases匹配到相应的预测,有效地预训练MCMN的标签语义匹配能力。此外,为了使MCMN具有实例语义概括能力,这种预训练是在元学习范式中进行的。也就是说,每次迭代都要求MCMN学习不同的关系抽取任务,MCMN就不能通过直接记忆特定的目标关系来过度匹配预训练语料库。

        主要贡献:

  • 提出MCMN,通过使用多选匹配范式从根本上实现关系抽取;
  • 提出triplet-paraphrase元训练对MCMN进行预训练,使MCMN既具备了标签语义匹配能力,又具备了实例语义概括能力。

Multi-Choice Matching Networks

Multi-choice Prompt

        从根本上说,关系提取器可以视为一个多项选择任务,通过直接链接所有关系名称或描述,为每个关系提取任务构造一个多选择提示,形式如下:

[C] rel1 [C] rel2 ... [C] rel N

其中,[C]为分隔符。例如Figure 2 中,将employee_of、ceo_of和others连接在一起,形成多项选择提示“[C] employee of [C] ceo of [C] others [SEP] [e1] Tim Cook [/e1] is the CEO of [e2] Apple [/e2] . [SEP]”。在获得多选项提示后,将其与输入句子一起输入实例编码器

Instance Encoder

        编码前,将多选择提示与每个输入实例链接,用[SEP]标志将其分隔,并分别用[e1]、[/e1]、[e2]和[/e2]将头、尾实体包起来。例如Figure 2的示例,编码器的输入为“[CLS] [C] employee of [C] ceo of [C] others [SEP] [e1] Tim Cook [/e1] is the CEO of [e2] Apple [/e2] . [SEP]”,然后通过transformer encoder对整个句子x进行编码:

h_{[CLS]},h_{[C]},...,h_{[SEP]}=H(x)

Multi-choice Matching and Prediction

        多选择匹配模块用来将输入实例匹配到对应的关系。对于每一种关系类型,使用[C]标记的隐藏层状态来表示关系:

h_{rel_i}=h_{[C]_i}

其中,h_{rel_i}表示关系ih_{[C]_i}表示第i个token[C]的隐藏层状态。

对于输入文本,简单地对[e1]和[e2]的隐藏状态取平均值得到实例表示

X=avg(h_{[e1]},h_{[e2]})

然后在实例和每个关系之间执行匹配操作:

D(x,y_i)=\left \| X-h_{rel_i} \right \|_2

在这个公式中,采用欧氏距离来度量相似度,每个关系对应的概率为

P(y_i|x;\theta )=\frac{exp(-D(x.y_i))}{\sum_{j=1}^{N}exp(-D(x,y_i))}

最后选择概率最大的关系\widehat{y}作为预测

\widehat{y}=\underset{i}{argmax}P(y_i|s;\theta )

Training Loss

L_{(x,y)}(\theta )=-\sum_{i=1}^{N}I(y_i)logP(y_i|x_i;\theta)

Training Strategies for Multi-Choice Matching Networks

Triplet-Paraphrase Construction

        为了使MCMN具有标签语义匹配能力,需要结合关系句和关系类型的大规模数据进行预训练。但是现有的RE数据集中高度有限的关系类型可能导致特定关系的过拟合,不利于MCMN的推广。Triplet-Paraphrase从原始文本中为MCMN生成大规模的预训练数据。Triplet-Paraphrase模块的总体流程如下图(a)所示,它从大规模的原始文本中提取谓词作为关系描述,然后利用提取的关系三元组生成Paraphrase句子进行进一步的多选择匹配预训练。

        关系三元组提取: 大多数完整的句子至少包含一个关系三元组,包括主语、谓语和宾语。句子中的谓语对应的是主语和宾语之间的属性或者关系,可以看做是一种关系的具体表述。为了从开放域文本中提取大规模的三元组,使用OpenIE模型对Wikipedia的文章集合进行抽取。从原始文本中收集所有提取的谓词来表示对应的关系,防止模型过渡拟合特定的关系类型。然后将这些三元组用于Paraphrase生成和预训练。

Paraphrase生成:对于提取出来的三元组,首先用“[H], [R], [T]”将其包装起来,分别对应主语、谓语和宾语,然后输入包装好的三元组文本以生成Paraphrase文本。例如三元组 (an online service, known as, PlayNET)被包装为“[H] an online service [R] known as [T] PlayNET”,然后生成Paraphrase文本playnet is an online service。在生成paraphrase之后,将其与对应的谓词进行匹配,以便进行预训练。

Triplet-Paraphrase Meta Pre-training

        预训练batch中的每个实例都包含paraphrase文本和相应的谓词span。如figure 3(a)所示,将当前mini-batch中的所有谓词链接为多选择提示,并按照Training Loss中的损失函数对MCMN进行预训练,其中,当y_i是对应的谓词时,I(y_i)=1,否则I(y_i)=0

Online Task Adaptation

        在在线学习或者测试期间,针对不用的低样本任务采用不同的适应策略。对于Zero-shot RE,直接使用经过训练的MCMN来执行任务,对于Few-shot RE,对支持集执行在线任务元训练,如算法1。

 Experiments

        本文进行了三种任务上的实验:① Zero-shot RE;② Few-shot RE;③ Few-shot RE with NOTA,即查询集实例的关系类别不存在于支持集中。

 消融实验

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/445878.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

外卖点餐系统小程序的设计

管理员账户功能包括:系统首页,个人中心,外卖员管理,餐厅管理,用户管理,菜品分类管理,菜品信息管理,外卖订单管理,订单配送管理 微信端账号功能包括:系统首页…

linux下编译鸿蒙版curl、openssl

一.环境准备 1.参考说明 NDK开发介绍:https://docs.openharmony.cn/pages/v5.0/zh-cn/application-dev/napi/ndk-development-overview.md 2.NDK下载 点击介绍页面中的链接可以跳转到相应下载页面: 下载相应版本: 下载完毕后解压到指定目…

.NET 通过C#设置Excel工作表的页面设置

Excel文件数据准备就绪并需要以报告形式呈现时,调整Excel文件的页面设置变得尤为重要,不仅关乎文档的专业外观,还直接影响到打印或电子分享时的可读性和实用性。通过C#来自动化这一过程,不仅可以节省大量手动配置的时间&#xff0…

python 画图|三维散点图输出

【1】引言 在前述学习进程中,已经初步掌握三维动画输出和散点图动画输出基本技能,可通过下述链接直达: python画图|散点图动态输出-CSDN博客 python动画教程|Animations using Matplotlib-官网教程程序解读_如何用python制作微动画-CSDN博…

Docker 教程四 (Docker 镜像加速)

Docker 镜像加速 国内从 DockerHub 拉取镜像有时会遇到困难,此时可以配置镜像加速器。 目前国内 Docker 镜像源出现了一些问题,基本不能用了,后期能用我再更新下。* Docker 官方和国内很多云服务商都提供了国内加速器服务,例如…

STM32 SPI串行总线

目录 STM32的SPI通信原理 SPI串行总线概述 SPI串行总线互连方式 STM32F1 SPI串行总线的工作原理 SPI串行总线的特征 SPI串行总线的内部结构 SPI串行总线时钟信号的相位和极性 STM32的SPI接口配置 STM32的SPI接口数据发送与接收过程 SPI的HAL 驱动函数 STM32的SPI通信…

vue+ElementUI—实现基础后台管理布局(sideBar+header+appMain)(附源码)

后台管理的模板很多,vue本身就提供了完整的vue-template-admin,vue-admin-beautiful等后台管理系统化框架,但是这些框架正是因为成体系而显得繁重。假如你想搭建一个静态的后台管理模板页面和几个单独的菜单页面,直接就上框架是否…

STM32CubeIDE使用ADC采用DMA重大BUG

问题描述 STM32CubeIDE 1.8.0问题 大牛攻城狮最近调试STM32L151CBT6。由于项目上使用该款芯片做控制电源使用,其中涉及到多路ADC的数据采样。使用STM32CubeIDE 1.8.0版本详细如下图所示 注意这里的使用的软件版本号很关键。采用该款软件搭建工程,第一次…

物联网如何推动工业数字化转型?

全球步入数字经济时代,制造业的数字化转型已成为驱动经济发展的核心引擎。物联网作为工业数字化转型的强力推手,其深度融入不仅促进了生产流程的智能化与自动化,还实现了数据的实时分析与精准决策,为制造业企业带来了前所未有的创…

基于Langchain框架下Prompt工程调教大模型(LLM)[输入输出接口、提示词模板与例子选择器的协同应用

大家好,我是微学AI,今天给大家介绍一下基于Langchain框架下Prompt工程调教大模型(LLM)[输入输出接口、提示词模板与例子选择器的协同应用。本文深入探讨了Langchain框架下的Prompt工程在调教LLM(大语言模型)方面的应用&#xff0c…

高效微调理解(prompt-tuning,p-tuning v1,p-tuning v2,lora)

高效微调(prompt-tuning,p-tuning v1,p-tuning v2,lora) 1.prompt-tuning: 例子理解;保持原本模型参数不变,通过训练提示词的参数调整prompt,使其与下游任务匹配。 例子…

SpringBoot教程(二十四) | SpringBoot实现分布式定时任务之Quartz(动态新增、修改等操作)

SpringBoot教程(二十四) | SpringBoot实现分布式定时任务之Quartz(动态新增、修改等操作) 前言数据库脚本创建需要被调度的方法创建相关实体类创建业务层接口创建业务层实现类控制层类测试结果 前言 我这边的SpringBoot的版本为2…

用java来编写web界面

一、ssm框架整体目录架构 二、编写后端代码 1、编写实体层代码 实体层代码就是你的对象 entity package com.cv.entity;public class Apple {private Integer id;private String name;private Integer quantity;private Integer price;private Integer categoryId;public…

libaom 源码分析系列:noise_model.c 文件

libaom libaom 是 AOMedia(开放媒体联盟)开发的一个开源视频编解码器库,它是 AV1 视频压缩格式的参考实现,并被广泛用于多种生产系统中。libaom 支持多种功能,包括可扩展视频编码(SVC)、实时通信(RTC)优化等,并定期进行更新以提高压缩效率和编码速度 。 libaom 的一些…

2.1 HTML5 - Canvas标签

文章目录 引言Canvas标签概述定义实例:创建画布 理解Canvas坐标系概述实例:获取Canvas坐标 获取Canvas环境上下文概述实例:获取Canvas上下文设置渐变色效果 结语 引言 大家好,今天我们要一起探索HTML5中一个非常有趣且强大的特性…

Redhat的yum源出错——如何将yum源换成阿里云Centos源

文章目录 引言1. 查看和删除已安装的yum包2. 查看系统的版本号3. 镜像文件下载4. 镜像文件安装5. 下载和安装repo文件6. 配置repo文件7. 更新软件包缓存8. 验证9. 问题问题1 参考文献 Linux RedHat更换阿里云yum源 Redhat8.0 yum install问题解决 阿里云镜像 引言 为什么redha…

六西格玛黑带项目:TBX-02无人机飞行稳定性提升——张驰咨询

一、项目背景与问题定义 TBX-02是该公司最新发布的消费级无人机,面向摄影爱好者和户外探险者。产品上市后,通过客户反馈和实际测试数据发现,该无人机在复杂飞行环境中,如强风或快速移动时,存在明显的飞行抖动和稳定性…

【AIGC】OpenAI API在快速开发中的实践与应用:优化ChatGPT提示词Prompt加速工程

博客主页: [小ᶻZ࿆] 本文专栏: AIGC | ChatGPT 文章目录 💯前言💯使用最新型号确保最佳实践利用最新模型进行高效任务处理为什么要选择最新模型?结论 💯指令与上下文的分隔最佳实践分隔指令和上下文的重要性使用符…

一起体验AI动手实验,OceanBase 2024 年度发布会精彩预告

2024年OceanBase年度发布会将于10月23日在北京望京凯悦酒店举行。此次大会围绕“不止于记录”的主题,共同探讨当前数据库领域的前沿话题,包含主论坛、分论坛、AI 动手实训营、开源技术交流会等多个环节,诚邀全国各地的企业和开发者共同参与&a…

[论文期刊|稳定检索]2024年信号处理与光学工程国际会议(SPOE 2024 )

2024年信号处理与光学工程国际会议 2024 International Conference on Signal Processing and Optical Engineering 【1】大会信息 会议名称:2024年信号处理与光学工程国际会议 会议简称:SPOE 2024 大会时间:请查看官网 大会地点&#xf…