事件抽取(Event Extraction, EE)

一、引言

事件抽取(Event Extraction, EE)是信息抽取领域中的一个重要任务,旨在从非结构化文本中识别和抽取事件相关的信息。事件抽取通常包括识别事件触发词、事件类型以及事件中的参与者、时间、地点等元素,最终将这些信息结构化地表示出来。事件抽取是自然语言处理(NLP)中的一个挑战性问题,广泛应用于新闻分析、舆情监控、情报分析等场景。

二、分类

2.1 句子级事件抽取

句子级事件抽取指的是从单个句子中识别并提取事件信息。这包括找到事件触发词、识别事件类型,以及抽取相关的事件论元(如参与者、时间、地点等)。句子级事件抽取主要集中于以下几个方面:

  1. 触发词检测:识别一个句子中的事件触发词,这是事件抽取的第一步。触发词通常是某些动词或名词,表示事件的发生。

  2. 事件类型分类:根据识别到的触发词,对事件进行类型分类,例如“自然灾害”、“人事变动”等。

  3. 论元抽取:找到与事件相关的要素,如“谁做了什么”、“在什么时候”、“在什么地点”等。

句子级事件抽取的优势在于处理范围相对较小,容易利用句法和语义特征进行分析。然而,它也存在一些限制,例如无法处理跨句子分布的事件信息

2.2 篇章级事件抽取

篇章级事件抽取则涉及对整个篇章或多句话段中事件的识别和提取。在篇章中,事件往往会跨越多个句子,形成因果、从属或并列关系,篇章级事件抽取的目标是在更大上下文中完整地捕捉这些事件及其相互关系。研究的主要任务包括:

  1. 跨句子事件抽取:识别分布在多个句子中的事件信息。例如,一个句子描述事件的主体,另一个句子描述事件的发生背景或时间。

  2. 事件链建模:通过识别多个事件之间的因果关系和时间顺序,构建事件链,以此来理解整个篇章中事件的因果逻辑和发展。

  3. 篇章内论元共享:在篇章级别中,事件论元往往需要共享。例如,前面某句话中提到的实体在后面的句子中继续起作用,这就需要模型有能力理解指代和篇章连贯性。

2.3 句子级与篇章级事件抽取的差异

2.3.1 抽取范围

  • 句子级事件抽取聚焦于单个句子,能够快速识别和提取特定句子中的事件。

  • 篇章级事件抽取则着重于跨越句子的上下文,目标是捕获完整的篇章信息。

2.3.2 上下文理解

  • 句子级事件抽取通常可以在有限的上下文内进行,只需要理解句子内的关系

  • 篇章级事件抽取需要处理更复杂的上下文,包含跨句子的依存关系、指代消解、篇章结构等,这对事件的连贯性建模提出了更高要求。

2.3.3 研究重点

  • 句子级事件抽取的研究重点主要集中在事件触发词识别、事件类型分类以及论元的抽取。它通常利用深度学习模型(如LSTM、BERT等)来学习词汇和句法特征。

  • 篇章级事件抽取的研究重点在于对跨句子的上下文建模和复杂关系的抽取。篇章级事件抽取常采用图神经网络(GNN)等方法,构建句子之间的关系图,或者利用指代消解技术和篇章推理模型来获取更深层次的关系。

2.3.4 研究挑战与方法

  • 句子级事件抽取面临的主要挑战在于如何应对词语的歧义性和抽取论元时的复杂语法。一般使用依存句法分析、BERT等预训练模型来解决这些问题。

  • 篇章级事件抽取的主要挑战是如何有效建模篇章内的关系和理解上下文依存。例如,篇章内的一个事件可能由多个触发词跨越不同的句子来描述,如何处理这些分布式的信息是篇章级事件抽取中的一个难点。常见的方法包括利用篇章级Transformer模型,或者通过建立图结构进行跨句子的依存关系建模。

三、篇章级事件抽取(Document-level Event Extraction, DEE)

篇章级事件抽取(Document-level Event Extraction, DEE)是从给定篇章中检测出符合预先定义事件模板的事件,并抽取与事件相关的角色和论元。根据是否需要识别事件,DEE 研究可以分为两个子任务:篇章级事件识别及其论元抽取(DocEI & AE)和篇章级事件论元抽取(DocEAE)。

3.1 篇章级事件识别及其论元抽取 (DocEI & AE)

DocEI & AE 的目标是从篇章中抽取所有符合指定类型的事件信息。这一任务的核心在于识别事件类型及其相关的论元,并形成一个完整的事件表格。任务包括以下三个子任务:

  1. 实体抽取:首先从篇章中识别出可能作为论元的候选实体。例如,在篇章中,实体可以是人名、地点、时间等,与事件相关的信息通常通过不同的颜色来标注。

  2. 事件类型判断:识别篇章中包含的事件类型。每个篇章可能包含多个事件类型,例如,事件类型 EU 和 EO,表示不同类别的事件。

  3. 多事件识别及论元抽取:给定事件类型后,识别篇章中多个相同类型的事件,并抽取这些事件的相关论元。例如,在篇章中可能包含同一种类型的多个事件(如一个EU事件和两个EO事件),需要对每个事件进行角色-论元抽取。

3.1.1 DocEI & AE 任务定义

假定篇章为D,DocEI & AE 任务的目标包括:

  1. 识别篇章 D中包含的所有事件类型集合\{t\}

  2. 对于每个事件类型t,识别其包含的所有事件集合\{event\},并完成每个事件在每个角色下的论元抽取。

  3. 可以形式化表示为:event=\{Role_{t,k}, \{arg_{t,k,j}\}\},其中Role_{t,k}是事件类型 t 的第k个角色,arg_{t,k,j}是篇章D中的一个实体,代表角色Role_{t,k}的论元,j表示该角色可以包含多个论元。

3.1.2 研究进展

DocEI & AE任务的实现模式有两种,一种是流水线模式,即分布独立实现实体抽取、事件类型判断和多事件抽取等子任务 (如:Doc2EDAG,DE-PPN,PTPCG,GIT,RAAT,SCDEE),难点在于多事件识别。

另一种是联合模式,即将上述子任务整合成一个完整的抽取任务,从而避免错误传播。难点在于设计一个合理的数据结构/图结构(如:Token-Event-Role Structure-based Multi-Channel Document-Level Event Extraction,TT-BECG),既能表示和解码篇章中包含的所有事件,又能直接揭示实体在何种时间类型下的哪些事件中扮演了何种角色论元,从而将3 个子任务集成为 1 个任务完成整个抽取任务。

3.2 篇章级事件论元抽取 (DocEAE)

DocEAE 的目标是在已知每个篇章包含的事件类型和事件触发词的情况下,识别每一个触发词所对应事件的角色与论元,无需再次识别事件类型。任务包括以下两个子任务:

  1. 识别候选论元:从篇章中识别出所有可能作为论元的文本片段。这些片段可以是命名实体,也可能是非命名实体,如时间描述或短语等(在示例图中通常用下划线表示)。

  2. 论元分类与链接:针对给定事件类型的每个角色,对候选论元进行分类,判断该论元是否充当相应角色。例如,针对触发词标记的事件,找到其对应角色的论元并进行标注(通常通过带箭头的线段来表示角色与论元的对应关系)。

3.2.1 DocEAE 任务定义

假定篇章D中包含多个事件,每个事件由一个触发词t标记,同时t表示所触发的事件类型。任务目标是:

  1. 针对每个触发词t触发的事件event_t,找到事件的所有角色-论元对集合\{Role_{t,k}, \{arg_{t,k,j}\}\}

  2. 其中,Role_{t,k}是事件类型 t 的第k个角色,arg_{t,k,j}是篇章D中的一个文本片段,充当事件 event_t中角色Role_{t,k}的论元,j表示该事件在角色Role_{t,k}上可以有多个论元。

3.2.2 研究进展

目前,篇章级事件论元抽取(DocEAE)的研究主要集中于 RAMS 和 WIKIEVENTS 语料库,研究思路大致分为四种策略:基于传统分类、机器阅读理解(MRC)、文本生成、和跨度选择。这些策略基于不同的实现方式,分别为 DocEAE 任务提供了解决思路和研究进展。

1. 基于传统分类

这种策略的核心是先产生候选论元,再对每个角色进行分类判断,即识别每个候选论元是否充当该角色的论元。

  • 候选论元生成:RAMS提出了枚举一定长度范围内的所有文本片段作为候选论元,然后再对每个角色进行分类判断,确定哪些候选片段可以充当角色的论元。

  • 语义编码和减少候选空间

    • TSAR和EAE采用抽象语义表示图(AMR)对篇章结构语义进行编码,以增强对篇章结构的理解。

    • A Two-Step Approach for Implicit Event Argument Detection提出了一种两阶段方法来确定论元中心词,从而减少候选论元的选择范围。

    • Document-Level Event Argument Extraction via Optimal Transport利用剪枝的句法依存树学习词语表示,以减少分类任务的复杂性。

    • STCP考虑了论元上下文线索和同一事件类型角色之间的关联,以提高论元抽取的准确性。

2. 机器阅读理解 (MRC)

这种方法将任务转换为机器阅读理解,通过提出问题并确定文本中的答案来实现论元抽取。

  • 问题生成和文本拼接:CAS Login和https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8839087将每个事件的角色生成为一个问题,然后将该问题与篇章拼接在一起,送入预训练语言模型,通过确定论元在文本中的开始和结束位置来避免候选论元的产生。

  • 预训练和论元关系建模

    • Machine Reading Comprehension as Data Augmentation: A Case Study on Implicit Event Argument Extraction提出先在 MRC 数据集上进行预训练,然后在 DocEAE 数据集上进行微调,以缓解少样本训练的问题。

    • FEAE通过使用同一事件的其他论元及其角色作为线索,捕捉论元与论元之间的语义关系,增强了模型的推理能力。

3. 文本生成

文本生成策略基于事件本体,通过创建事件模板,并用论元填充模板的方式进行事件抽取。

  • 事件模板生成:CPMF将 DocEAE 任务转化为基于事件模板的文本生成任务。对于每种事件类型,创建一个包含所有论元占位符的模板,并通过序列到序列(Seq2Seq)的编码器-解码器模型生成填充后的模板。

  • 扩展生成模型

    • Dynamic Global Memory for Document-level Argument Extraction和EA2E扩展了生成模型,捕获了多个事件之间的关联语义。

    • CUP捕捉了论元与触发词之间的依赖关系,以增强对事件的理解。

    • Retrieve-and-Sample将检索增强技术融入生成模型,用于更好地生成论元信息。

    • DICE则将文本生成策略应用于临床医学领域的事件抽取。

4. 跨度选择

跨度选择策略通过基于角色的表示,训练模型分别确定论元在文本中的开始和结束位置。

  • 基于提示的跨度选择:Prompt for Extraction? PAIE: Prompting Argument Interaction for Event Argument Extraction为每种事件类型设计了一个提示模板,基于预训练语言模型(PLMs)返回的角色表示为每个角色生成两个跨度选择器,分别确定论元的开始和结束位置。由于所有角色的跨度选择器是联合训练的,因此可以捕获同一事件类型下各角色论元之间的语义关联。

  • 扩展与改进

    • Contextualized Soft Prompts for Extraction of Event Arguments基于软提示对Prompt for Extraction? PAIE: Prompting Argument Interaction for Event Argument Extraction的方法进行了扩展。

    • Revisiting Event Argument Extraction: Can EAE Models Learn Better When Being Aware of Event Co-occurrences?在Prompt for Extraction? PAIE: Prompting Argument Interaction for Event Argument Extraction的基础上,尝试同时抽取多个事件的论元,以捕获多事件之间的关联语义。

    • Intra-Event and Inter-Event Dependency-Aware Graph Network for Event Argument Extraction为每个事件建立事件内和事件间的依赖感知图网络,以捕获事件中的角色依赖关系。

5. 其他研究进展
  • 基于预训练模型的策略:除了基于传统分类的方法,后面三种策略(MRC、文本生成和跨度选择)均是基于预训练语言模型,充分利用了其在语言理解和生成方面的优势。

  • 迁移学习与其他方法

    • A Multi-Format Transfer Learning Model for Event Argument Extraction via Variational Information Bottleneck、Textual Entailment for Event Argument Extraction: Zero- and Few-Shot with Multi-Source Learning、What Is Overlap Knowledge in Event Argument Extraction? APE: A Cross-datasets Transfer Learning Model for EAE

      将迁移学习、文本蕴涵(Textual Entailment)等方法应用于 DocEAE 任务,以缓解训练数据不足的问题。

    • Few-Shot Document-Level Event Argument Extraction构建了少样本数据集 FewDocAE,为少样本场景下的事件抽取研究提供了支持。

    • Document-Level Event Argument Extraction With a Chain Reasoning Paradigm采用链式推理(Chain Reasoning)的方法来解决长距离依赖问题,以增强模型对篇章中复杂依存关系的理解。

四、未来趋势

4.1 获取更多语义信息/缩小候选跨度的抽取策略

  • 语义信息的深度挖掘:现有的方法在利用蕴含的语义信息方面存在不足,例如角色的语义信息、事件类型的语义信息,以及角色、事件类型、触发词和篇章之间的关联语义信息。未来的研究可以探索如何有效地编码这些语义信息,从而提升篇章级事件抽取的效果。

  • 减少候选跨度:候选论元的巨大跨度范围是影响抽取性能的一个重要因素。如何通过有效的方法来缩小候选跨度范围,是未来篇章级事件论元抽取(DocEAE)的一个研究热点。例如,可以通过更精确的候选论元生成策略来减少不必要的候选,进而提升模型的效率和准确性。

4.2 基于少样本的篇章级事件论元抽取

少样本问题:目前支持篇章级事件抽取的数据集有限,尤其是在英文数据集方面,规模较小且事件类型分布不均,导致某些事件类型样本非常少,无法有效支撑深度学习模型的训练。为了解决这一问题,未来可以探索基于少样本学习的篇章级事件论元抽取策略,例如:

  • 零样本学习和元学习:利用零样本学习(Zero-shot Learning)和元学习(Meta-learning)等技术,减少对大规模标记数据的依赖,从而提升模型在数据稀缺情况下的表现。

4.3 面向跨度论元的篇章级事件抽取

  • 面向跨度的事件抽取:当前的篇章级事件抽取研究中,针对 RAMS 和 WIKIEVENTS 数据集的任务大多聚焦于篇章级事件论元抽取,即在给定事件触发词的情况下,识别与之相关的论元。然而,这种任务设置降低了任务的难度,限制了研究的适用性和实际应用场景的广泛性。

  • 多事件识别与论元抽取的结合:未来可以设计面向跨度的篇章级事件识别及其论元抽取(DocEI & AE)模型,同时解决事件类型识别和跨度论元的抽取问题,这将提高抽取任务的复杂性,但也能更好地模拟现实应用中的复杂场景,使研究成果具备更高的应用推广价值。

4.4 基于新数据集的篇章级开放事件抽取

  • 篇章级开放事件抽取:目前的中文篇章级事件抽取数据集大多集中在金融公告领域,文本内容和描述相对固定,且事件论元较为简单,多为命名实体。英文数据集虽然包含部分跨度论元,但规模有限且事件类型固定,无法很好地适应新类型事件的抽取需求。

  • 财经评论中的事件抽取:财经评论的语言描述较复杂,涉及施事者、受事者、时间、地点等多个事件成分,还包括事件行为发生的背景、条件等。财经评论的逻辑性较强,存在丰富的事件关系,因此,如何从财经评论中抽取篇章级开放事件,特别是处理复杂的非命名实体论元和论元共享问题,是一个重要的研究方向。

  • 开放事件抽取的应用场景:通过构建新型的数据集,例如面向财经评论的篇章级开放事件抽取数据集,可以推动事件关系抽取和开放事件抽取的研究,使这一领域成为新的研究热点。

4.5 基于大模型的篇章级事件论元抽取

  • 大模型的应用:随着大模型(如GPT-3、T5、PaLM等)在NLP任务中的广泛应用,未来篇章级事件抽取的研究将更多地考虑如何利用大模型来提升事件抽取的效果。具体策略可能包括:

    • 零样本提示和上下文情境学习:利用大模型的零样本提示(Zero-shot Prompting)和上下文情境学习(Contextual Learning)技术,设计更加有效的提示词(Prompts)来获取更多的语义信息,提高论元抽取的精度。

    • 思维链推理(Chain-of-Thought Reasoning):利用大模型的思维链推理能力,设计新的篇章级事件论元抽取执行框架,以捕获复杂的事件逻辑和跨句推理的能力。

  • 多任务学习和知识共享:大模型可以用于跨任务学习和知识共享,例如同时训练多个事件类型或论元角色的抽取任务,以提高模型对篇章中多事件信息的综合理解能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/440443.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Excel中的屠龙大招

indirect的地位部分动摇,神坛下已初生大力骑士——“”。 (笔记模板由python脚本于2024年10月06日 18:57:11创建,本篇笔记适合同时喜欢python和Excel的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网:https://www.python.org/ Free&…

支持向量机(SVM)基础教程

一、引言 支持向量机(Support Vector Machine,简称SVM)是一种高效的监督学习算法,广泛应用 于分类和回归分析。SVM以其强大的泛化能力、简洁的数学形式和优秀的分类效果而备受机器学 习领域的青睐。 二、SVM基本原理 2.1 最大间…

QT使用qss控制样式实现动态换肤

文章目录 设计QSS样式表动态加载QSS文件主函数调用QT提供了一种非常灵活的方式来使用QSS(Qt Style Sheet,类似于 CSS 的样式表),实现界面的动态换肤功能。QSS可以改变Qt应用程序中几乎所有可视组件的外观,包括颜色、字体、边框等。下面介绍一下如何通过QSS实现动态换肤。 设…

YOLO11改进|注意力机制篇|引入上下文锚注意力机制CAA

目录 一、【CAA】注意力机制1.1【CAA】注意力介绍1.2【CAA】核心代码 二、添加【CAA】注意力机制2.1STEP12.2STEP22.3STEP32.4STEP4 三、yaml文件与运行3.1yaml文件3.2运行成功截图 一、【CAA】注意力机制 1.1【CAA】注意力介绍 CAA注意力机制的结构图如下,下面根据…

51单片机的水质检测系统【proteus仿真+程序+报告+原理图+演示视频】

1、主要功能 该系统由AT89C51/STC89C52单片机LCD1602显示模块温度传感器ph传感器浑浊度传感器蓝牙继电器LED、按键和蜂鸣器等模块构成。适用于水质监测系统,含检测和调整水温、浑浊度、ph等相似项目。 可实现功能: 1、LCD1602实时显示水温、水体ph和浑浊度 2、温…

PYTHON实现HTTP request的一些有用的函数

前言 我们知道,当需要设计一个程序和服务器进行交互时,往往会用到HTTP的request,即服务器有一个对外接口REST API,因此当向服务器发送符合格式要求的HTTP request时,服务器会给出响应,甚至执行一些任务。如…

18734 拓扑排序

### 思路 1. **建模问题**:将课程和依赖关系建模为有向图,其中课程是节点,依赖关系是有向边。 2. **选择算法**:使用拓扑排序算法来确定课程的学习顺序。由于需要确保输出唯一性,同等条件下编号小的课程排在前面&…

fastAPI教程:路由操作及HTTP请求响应

FastAPI 三、路由操作 3.1 路由装饰器 路由装饰器,也叫路径操作装饰器。 FastAPI提供了一系列基于HTTP请求作为方法名的装饰器给开发者用于绑定url地址提供给外界操作API接口。 HTTP方法FastAPI代码描述GETapp.get()async 方法名(): pass获取数据POSTapp.post(…

吴恩达深度学习笔记:卷积神经网络(Foundations of Convolutional Neural Networks)2.5-2.6

目录 第四门课 卷积神经网络(Convolutional Neural Networks)第二周 深度卷积网络:实例探究(Deep convolutional models: case studies)2.5 网络中的网络以及 11 卷积(Network in Network and 11 convoluti…

【AI知识点】批归一化(Batch Normalization)

批归一化(Batch Normalization,BN) 是一种用于加速神经网络训练并提高模型稳定性的方法,最早由 Sergey Ioffe 和 Christian Szegedy 在 2015 年提出。批归一化通过在每一层对神经网络中的激活值进行标准化,使得每一层的…

D29【python 接口自动化学习】- python基础之输入输出与文件操作

day29 格式化输出 学习日期:20241006 学习目标:输入输出与文件操作﹣-41 格式化输出:如何将执行结果通过屏幕输出? 学习笔记: 三种常用的格式化输出方式 百分号方式 format函数方式 总结 1. 格式化输出…

在ubuntu好部署jenkins发布vue项目时遇到的一些问题及解决方法以及使用jenkins发布vue项目-npm自动打包发布的实现

一、在ubuntu好部署jenkins发布vue项目时遇到的一些问题及解决方法 1. 问题:webpack-dev-server不是内部或外部命令,也不是可运行的程序 解决:使用webpack要安装webpack-cli这个包,才可以调用webpack和webpack-dev-server这些命…

Hive3.x版本调优总结

文章目录 第 1 章 Explain 查看执行计划(重点)1.1 创建测试用表1)建大表、小表和 JOIN 后表的语句2)分别向大表和小表中导入数据 1.2 基本语法1.3 案例实操 第 2 章 Hive 建表优化2.1 分区表2.1.1 分区表基本操作2.1.2 二级分区2.…

虚拟机 VMware 安装 macOS

macOS 界面 MAC OS IOS下载: amacOS Monterey by Techrechard.comwmacOS Monterey by Techrechard.com 下载:Unlocker-v2.0.1-x64 Mac OS X 虚拟机中更改屏幕分辨率 终端输入命令: sudo defaults write /Library/Preferences/com.apple.w…

2-114 基于matlab的CA模型

基于matlab的CA模型,Singer模型对单机动目标进行跟踪算法,具有10页实验文档。采用蒙特卡罗方法对一个二坐标雷达对一平面上运动的目标进行观测,得到跟踪滤波结果。程序已调通,可直接运行。 下载源程序请点链接:2-114 …

Linux:进程的创建、终止和等待

一、进程创建 1.1 fork函数初识 #include pid_t fork(void); 返回值:子进程中返回0,父进程返回子进程id,出错返回-1 调用fork函数后,内核做了下面的工作: 1、创建了一个子进程的PCB结构体、并拷贝一份相同的进程地址…

Stable Diffusion绘画 | IP角色多视图生成技巧

在游戏设计、小说推文、角色设计里面,很多场景都运用到IP角色的多视图。 人物角色多视图 第1步,输入提示词: 第2步,由于要在同一张图片中生成多角度的并排展示,需要修改图片的分辨率(尤其是宽度&#xff…

Pytorch实现心跳信号分类识别(支持LSTM,GRU,TCN模型)

Pytorch实现心跳信号分类识别(支持LSTM,GRU,TCN模型) 目录 Pytorch实现心跳信号分类识别(支持LSTM,GRU,TCN模型) 1. 项目说明 2. 数据说明 (1)心跳信号分类预测数据集 3. 模型训练 (1)项目安装 &am…

MoveIt2-humble----在 RViz 中实现可视化

官方文档上的教程,从moveit1的melodic到moveit2的foxy基本一致,但是从最新的humble开始有了很大的变化,其中之一便是 lambda表达式 的广泛使用。 本节为教程的第二节,会介绍一个工具(moveit_visual_tools)…

运动员场景分割系统源码&数据集分享

运动员场景分割系统源码&数据集分享 [yolov8-seg-HGNetV2&yolov8-seg-aux等50全套改进创新点发刊_一键训练教程_Web前端展示] 1.研究背景与意义 项目参考ILSVRC ImageNet Large Scale Visual Recognition Challenge 项目来源AAAI Global Al lnnovati…