关系分类(RC)模型和关系抽取(RE)模型的区别

目标不同

关系分类模型:对给定的实体对在给定句子中预测其关系类型。两阶段(RC)

关系抽取模型:从句子中识别出所有潜在实体对,并为其预测关系类型。一阶段(NER+RE)


训练/预测阶段输入输出数据不同

关系分类模型:

训练阶段

训练:
输入:句子 + 实体对| 句子:苹果公司总部位于加州库比蒂诺| 实体对:(苹果公司, 加州库比蒂诺)| 标注真实关系标签:位于
输出:模型预测关系:位于

预测阶段

预测:
输入:句子 + 实体对| 句子:苹果公司总部位于加州库比蒂诺| 实体对:(苹果公司, 加州库比蒂诺)
输出:模型预测关系:位于

关系抽取模型:

训练阶段

输入:句子:乔布斯是苹果公司的创始人标注真实集合:实体集合:{乔布斯: 人物, 苹果公司: 组织}关系集合:{(乔布斯, 创立, 苹果公司)}输出:模型生成:实体集合:{乔布斯: 人物, 苹果公司: 组织}关系集合:{(乔布斯, 创立, 苹果公司)}

预测阶段

输入:句子:乔布斯是苹果公司的创始人输出:预测的实体集合:{乔布斯: 人物, 苹果公司: 组织}预测的关系集合:{(乔布斯, 创立, 苹果公司)}

🤔 关系分类模型和关系抽取模型在训练时使用的数据集有何不同?

关系分类模型和关系抽取模型在训练时使用的数据集是不同的,因为它们的任务目标和方法逻辑不同。以下是两者在数据集格式和内容上的主要区别:


1. 关系分类模型的数据集

目标:从给定的句子和实体对中预测其关系类型。

数据集格式

每条数据是一个三元组,包括句子、实体对和关系标签。

  • 内容

    1. 句子:单个句子,包含明确的上下文。
    2. 实体对:两个实体,通常以 (实体1, 实体2) 的形式表示。
    3. 关系标签:从一个固定的关系集合中选择一个标签。
  • 示例

    数据:
    - 句子:乔布斯是苹果公司的创始人。
    - 实体对:(乔布斯, 苹果公司)
    - 关系标签:创立
    
特点
  • 数据中的实体对是已知的,无需模型检测。
  • 每个句子只针对特定的实体对预测关系。
  • 需要提供明确的关系标签集合。

2. 关系抽取模型的数据集

目标:从一个句子中同时识别所有的实体和它们之间的关系。

数据集格式

每条数据是一个整体标注,包括句子、实体集合和关系集合。

  • 内容

    1. 句子:一个包含多个实体及其潜在关系的句子。
    2. 实体集合:多个实体及其类别,通常以 {实体: 类别} 的形式表示。
    3. 关系集合:所有可能的实体对及其关系,通常以 {(实体1, 关系, 实体2)} 的形式表示。
  • 示例

    数据:
    - 句子:乔布斯是苹果公司的创始人。
    - 实体集合:{乔布斯: 人物, 苹果公司: 组织}
    - 关系集合:{(乔布斯, 创立, 苹果公司)}
    
特点
  • 不提前提供实体对,需要模型自己识别所有实体及其类别。
  • 多对多关系:每个句子可能包含多个实体和多个关系。
  • 输出的关系标签是针对完整关系集合的预测。

3. 数据集的差异总结

维度关系分类模型关系抽取模型
句子必须提供必须提供
实体已标注的特定实体对模型需识别所有实体
关系单一关系标签关系集合
标注粒度针对单对实体针对整句话
多样性每个数据实例仅对应一个实体对和一个关系每个数据实例可能包含多个实体和关系

4. 应用场景的影响

  • 关系分类模型适用于场景:
    • 输入的实体对已明确,模型只需专注于关系预测。
    • 数据集中实体对已事先标注好。
    • 任务目标明确,单关系分类足够。
  • 关系抽取模型适用于场景:
    • 输入中实体对不明确,需要从文本中检测所有可能的实体。
    • 输入句子可能包含多个实体对和关系,需要整体预测。

关系分类和关系抽取的数据集

模型分数SOTA排名

各个数据集的各个模型最新排名-SOTA:Relation Extraction | Papers With Code

关系分类模型的数据集:

  1. SemEval-2010 Task-8:这个数据集主要用于关系分类,它包含了多个预定义的关系类别,模型需要识别实体对之间的关系。9 种有向关系 + 1 种无关系,总共 10 种关系
  2. ACE 2005:这个数据集也用于关系分类,它包含了实体和它们之间的关系,需要模型识别实体对之间的关系类型。7种关系类型

关系抽取模型的数据集:

  1. DocRED:这是一个用于文档级别的关系抽取的数据集,它包含了多个句子,每个句子中可能包含多个实体和关系,需要模型识别实体及其关系。96 种关系类型
  2. TACRED:这个数据集用于关系抽取,它包含了句子和实体对,以及它们之间的关系,需要模型识别实体的边界和关系。41 种关系
  3. CoNLL04:这个数据集主要用于命名实体识别,但它也包含了关系抽取的任务,需要模型识别实体和它们之间的关系。
  4. Adverse Drug Events (ADE) Corpus:这个数据集用于药物不良反应事件的抽取,需要模型识别实体(如药物和不良反应)及其关系。
  5. WebNLG:这个数据集用于生成任务,但它也包含了关系抽取的元素,需要模型识别实体和它们之间的关系。
  6. ChemProt:这个数据集用于化学蛋白质交互作用的抽取,需要模型识别实体(如化学物质和蛋白质)及其关系。
  7. NYT11-HRL:这个数据集用于从纽约时报文章中抽取人物和组织的关系,需要模型识别实体及其关系。53种关系类型
  8. ACE 2004:这个数据集用于实体识别和关系抽取,需要模型识别实体的边界和它们之间的关系。

参考:Evaluating ChatGPT’s Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness

总结

大致分类如上,注意某些数据集可能同时包含关系分类和关系抽取的任务。

  • 关系分类模型:关系类型通常较少(10~50 种),适合精确分类。
  • 关系抽取模型:关系类型通常更多(50~100+),适合开放环境的关系挖掘。如领域数据集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/502748.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VSCode编辑+GCC for ARM交叉编译工具链+CMake构建+OpenOCD调试(基于STM32的标准库/HAL库)

一、CMake安装 进入CMake官网的下载地址Get the Software,根据系统安装对应的Binary distributions。 或者在CMake——国内镜像获取二进制镜像安装包。 或者访问GitHub的xPack项目xPack CMake v3.28.6-1,下载即可。 记得添加用户/系统的环境变量&#…

【数据结构】链表(2):双向链表和双向循环链表

双向链表(Doubly Linked List) 定义: 每个节点包含三个部分: 数据域。前驱指针域(指向前一个节点)。后继指针域(指向下一个节点)。 支持从任意节点向前或向后遍历。 #define dat…

RK3588+麒麟国产系统+FPGA+AI在电力和轨道交通视觉与采集系统的应用

工业视觉识别系统厂家提供的功能主要包括: 这些厂家通过先进的视觉识别技术,实现图像的采集、处理与分析。系统能够自动化地完成质量检测、物料分拣、设备监控等任务,显著提升生产效率和产品质量。同时,系统具备高度的灵活性和可扩…

3 抢红包系统

我们还是按照我们分析问题的方法论开展 一 场景分析 我们分析的是集体活动的抢红包,比如春晚,大型活动红包,需要在网页操作的抢红包 抢红包的问题也是多个人抢资源的问题,可以和秒杀进行比对。但是也有很多不同的地方。 用户打…

数据库中的并发控制

并发操作带来的数据不一致性 1、并发控制:为了保证事务的隔离性和一致性,数据库管理系统需要对并发操作进行正确调度 并发控制的主要技术有:封锁、时间戳、乐观控制法、多版本并发控制等 并发操作带来的数据不一致性: ① 丟失修改:两个事务 T1 和 T2 读入同一数据…

ArcGIS Server 10.2授权文件过期处理

新的一年,arcgis server授权过期了,服务发不不了。查看ecp授权文件,原来的授权日期就到2024.12.31日。好吧,这里直接给出处理方法。 ArcGIS 10.2安装时,有的破解文件中会有含一个这样的注册程序,没有的话&…

学英语学压测:02jmeter组件-测试计划和线程组ramp-up参数的作用

📢📢📢:先看关键单词,再看英文,最后看中文总结,再回头看一遍英文原文,效果更佳!! 关键词 Functional Testing功能测试[ˈfʌŋkʃənəl ˈtɛstɪŋ]Sample样…

MCGS学习记录

软件包 用户窗口 主窗口 元件:工具箱->输入框上面 数据对象 在工作台的实时数据库可以新增数据对象 理解为中间变量,控件改变其值,控件监测其值做出变化 基本属性 设定变量名和初始值 指针化? 变化时自动保存初始值&#x…

【网络协议】IPv4 地址分配 - 第一部分

文章目录 十进制与二进制网络如何被寻址地址类型网络地址广播地址主机地址 如何确定网络和主机部分的位数?网络中的主机数量与前缀号的关系计算每个前缀的主机数量公式 子网掩码二进制与操作(Binary ANDing)与操作(AND Operation&…

数据挖掘——集成学习

数据挖掘——集成学习 集成学习Bagging:有放回采样随机森林 BoostingStacking 集成学习 集成学习(Ensemble learning)方法通过组合多种学习算法来获得比单独使用任何一种算法更好的预测性能。 动机是为了提高但分类器的性能 Bagging&…

ansible-性能优化

一. 简述: 搞过运维自动化工具的人,肯定会发现很多运维伙伴们经常用saltstack和ansible做比较,单从执行效率上来说,ansible确实比不上saltstack(ansible使用的是ssh,salt使用的是zeromq消息队列[暂没深入了解]),但其实…

NLP CH10 问答系统复习

1. 专家系统 特点 问题聚焦:限定在特定领域。数据结构化:使用结构化的领域知识。数据库支持:后台有一个数据库,保存系统可提供的各种数据。查询机制:用户提问时,系统将问题转换为 SQL 查询语句&#xff0…

vite6+vue3+ts+prettier+eslint9配置前端项目(后台管理系统、移动端H5项目通用配置)

很多小伙伴苦于无法搭建一个规范的前端项目,导致后续开发不规范,今天给大家带来一个基于Vite6TypeScriptVue3ESlint9Prettier的搭建教程。 目录 一、基础配置1、初始化项目2、代码质量风格的统一2.1、配置prettier2.2、配置eslint2.3、配置typescript 3、…

【2025年最新】OpenWrt 更换国内源的指南(图形界面版)

在上一篇文章中我们讲解了如何使用命令行更换国内源,如果你没有终端工具,或者不喜欢命令行,那么图形界面方式将会是更简单有效的方式。 命令行版本:【2025年最新】OpenWrt 更换国内源的指南(命令行)-CSDN博客 为什么选择通过图形…

uni-app:实现普通选择器,时间选择器,日期选择器,多列选择器

效果 选择前效果 1、时间选择器 2、日期选择器 3、普通选择器 4、多列选择器 选择后效果 代码 <template><!-- 时间选择器 --><view class"line"><view classitem1><view classleft>时间</view><view class"right&quo…

NVIDIA DLI课程《NVIDIA NIM入门》——学习笔记

先看老师给的资料&#xff1a; NVIDIA NIM是 NVIDIA AI Enterprise 的一部分&#xff0c;是一套易于使用的预构建容器工具&#xff0c;目的是帮助企业客户在云、数据中心和工作站上安全、可靠地部署高性能的 AI 模型推理。这些预构建的容器支持从开源社区模型到 NVIDIA AI 基础…

深度学习中的步数指的是什么

Lora微调的截图如下: 在深度学习中,步数(steps) 是指模型参数更新的次数。每次参数更新通常对应一个或多个批次的梯度计算和优化器更新。以下是计算总步数的方法以及步数的具体含义: 1. 步数的计算公式 总步数(Total Optimization Steps)可以通过以下公式计算: [ \te…

【可实战】测试用例组成、用例设计方法、用例编写步骤、测试用例粒度、用例评审(包含常见面试题)

一、测试用例组成 &#xff08;一&#xff09;测试用例的组成 用例编号&#xff0c;模块&#xff0c;测试点&#xff08;测试标题&#xff09;&#xff0c;优先级&#xff0c;前提条件&#xff0c;测试步骤&#xff0c;期望结构&#xff0c;实际结果并不是每一项都必须&#…

Redis两种主要的持久化方式是什么?

Redis支持两种主要的持久化方式&#xff0c;它们分别是RDB&#xff08;Redis Database Snapshotting&#xff09;和AOF&#xff08;Append Only File&#xff09;。以下是这两种持久化方式的详细介绍&#xff1a; 一、RDB&#xff08;Redis Database Snapshotting&#xff09; …

【强化学习】演员评论家Actor-Critic算法(万字长文、附代码)

&#x1f4e2;本篇文章是博主强化学习&#xff08;RL&#xff09;领域学习时&#xff0c;用于个人学习、研究或者欣赏使用&#xff0c;并基于博主对相关等领域的一些理解而记录的学习摘录和笔记&#xff0c;若有不当和侵权之处&#xff0c;指出后将会立即改正&#xff0c;还望谅…