CCKS2023-面向金融领域的主体事件检测-亚军方案分享

赛题分析

大赛地址

https://tianchi.aliyun.com/competition/entrance/532098/introduction?spm=a2c22.12281925.0.0.52b97137bpVnmh

任务描述

主体事件检测是语言文本分析和金融领域智能应用的重要任务之一,如在金融风控领域往往会对公司主体进行风险事件的检测。基于句子粒度的上下文进行公司事件检测,事件包含事件类型和主体要素(即公司主体),句中可能存在多个事件,多个公司主体且每个公司都可能存在多个事件类型标签,并且各类型标注样本分布不均匀,部分类型样本量较少,我们希望检测出文本中包含的所有主体事件。本次评测任务的文本语料来自于互联上的公开新闻、报告。

数据描述

输入 :一段文本X

输出 :文本X中所有的事件类型及对应的公司主体

示例

输入:{"text_id": "123456", "text": "播州城投多次被列为被执行人,同时涉及一系列诉讼案件并多次被纳入失信被执行人名单;由于公司债务逾期规模大,区域债务负担重, 7月母公司遵义道桥建设(集团)有限公司("遵义道桥")开始进行债务重组并将银行类债权延期 10年"}

输出:{"text_id": "123456", "events": [{"type":"被列为失信被执行人" ,"entity":"播州城投"} , {"type": "债务违约","entity": "播州城投"}, {"type": "债务重组", "entity": "遵义道桥建设(集团)有限公司"}, {"type": "债务重组", "entity": "遵义道桥"}]}

方案陈述

整体方案的模型架构

结构图如下所示:

  • 传统模型:主要依赖传统的信息抽取方法来做,包括 bert+crf、 bert+span 和 bert+global pointer等方案;

  • LLMs:依赖已经预训练好的大模型,包括 mt5、mt0、Ziya-LLaMA、 chatglm 等,微调方式包括全量指令微调以及基于 Lora 的指令微调;

  • 后处理:针对预测的数据进行异常符、原文修正、大小写修正、繁体 简体修正等;

  • 融合:采用加权投票融合;

下面依次介绍每个方案的细节。

传统方案之bert-crf

crf这么基础的内容这里就不说了,用的就是原生的crf,没有进行魔改,需要说明一点的就是,这个任务中同一个公司主体如果有多个事件类型,crf这个方案是解决不了的,好在这个任务中这种一个公司主体对应多个事件类型的情况不多。

传统方案之bert-span

上文也说了,这个任务中存在一个公司主体对应多个事件类型的情况,为了兼容这种情况,我对原来的span编码解码框架稍稍进行了魔改,结构图如下:

原生的span结构以双指针的形式替代 CRF 模块,可以解决实体嵌套 问题,首尾指针可以截取一个实体,首位指针的类型指代这个截取的实体的标签类型,但是在本次任务中,为了解决一个公司主体对应多个事件类型的情况,我们改变了首尾指针的形式,融入多标签的思想,基于多标签的span指针可以轻松实现一个实体(公司主体)指向多个类型(事件类型)。

传统方案之bert-gp

gp用的就是苏剑林原生的方案,没有进行改动,所以呢,我也不想废话了,估计你们也不想听我废话,你们直接看苏神的讲解吧。苏剑林科学空间:https://spaces.ac.cn/archives/8265

大模型(LLM)方案

本次任务我们将大模型用在了事件检测任务上,主要尝试了mt5、chatglm、以及llma模型,训练方式是全参数微调和Lora微调。

指令构造

指令 1:

使用自然语言抽取二元组,请从句子中抽取出所有的事件类型及对应的公司主体, 句中可能存在多个事件、多个公司主体且每个公司都可能存在多个事件类型标签,最后以 (公司主体,事件类型)的形式回答。

例子:

"instruction":"使用自然语言抽取二元组,请从句子中抽取出所有的事件类型 及对应的公司主体,句中可能存在多个事件、多个公司主体且每个公司都可能存在多个事 件类型标签,最后以(公司主体,事件类型)的形式回答。","input":"而在此之前,从 2013 开始至 2018 年连续 5 年时间,苏州银行的核心一级资本充足率、一级资本充足率 均在下降,资本充足率在 2015 年出现回升后也再度连续三年下降","output":"(苏州 银行,资本充足不足)

指令 2:

这是一个金融实体抽取的任务,请从以下句子抽取公司主体以及相应的事件类 型,按(公司主体,事件类型)的形式回答。

例子:

这是一个金融实体抽取的任务,请从以下句子抽取公司主体以及相应的事件类 型,按(公司主体,事件类型)的形式回答。 例子:"instruction":"这是一个金融实体抽取的任务,请从以下句子抽取公司主体 以及相应的事件类型,按(公司主体,事件类型)的形式回答。","input":"而在此之 前,从 2013 开始至 2018 年连续 5 年时间,苏州银行的核心一级资本充足率、一级资 本充足率均在下降,资本充足率在 2015 年出现回升后也再度连续三年下降 ","output":"(苏州银行,资本充足不足)

微调

mt5、mt0 以及 umt5 经过多语种预训练,对于这个任务 也适配,在 large 模型,可以模型并行来训练, 在 xl 以及 xxl 模 型,需要基于 deepspeed 对模型参数进行切分来提高模型训练速度, xxl 模型,在 A100 卡上,全量微调。

Lora 指令微调:当前中文模型包括 chatglm、ziya-llama、ZhiXi (智 析)

本次基于大模型做事件检测任务部分参考如下范例:

总结

本次赛道任务,我们总结如下:

  • 在数据层面,我们做了一些数据增广,聚合相同事件类型下所有公司主体,随机替换同个类型的公司 实体进行数据生成;

  • 在传统方案上(crf、span、gp),我们通过一些手段(fgm、pgd、swa、ema、r-drop、multi-drop等)增强了模型的泛化性和鲁棒性;

  • 选择了多种的编码框架,crf是序列标记,span是指针抽取,gp是片段排列,LLM是基于指令的生成式,每一种框架都有自己的优势和短板,融合起来增益良多;

最后值得一提的是,通过本次任务,大模型(LLM)虽然参数大很多,训练时间长很多,但是单个大模型的效果并没有比传统方案的效果好,从性价比上甚至处于劣势,但是差异大,不同框架之间差异大,融合效果提升很多。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/210969.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

杂散表的阅读

杂散表得阅读 —— 以Marki公司得手册为例 混频杂散(Mixing Spurs)是指信号经过混频器时,不仅会与本振混频,还会与本振的高次谐波混频(对于第二章说的方波本振,信号只与本振的奇次谐波混频因为方波只含有奇…

VSC改造MD编辑器及图床方案分享

VSC改造MD编辑器及图床方案分享 用了那么多md编辑器,到头来还是觉得VSC最好用。这次就来分享一下我的blog文件编辑流吧。 这篇文章包括:VSC下md功能扩展插件推荐、图床方案、blog文章管理方案 VSC插件 Markdown All in One Markdown Image - 粘粘图片…

gitLab创建新项目

1.进入git2.选择创建项目3.勾选生成readme.md文件4.邀请成员

【MATLAB源码-第93期】基于matlab的白鲸优化算法(BWO)和鲸鱼优化算法(WOA)机器人栅格路径规划对比。

操作环境: MATLAB 2022a 1、算法描述 白鲸优化算法(BWO) 白鲸优化算法是受到白鲸捕食和迁徙行为启发的一种算法。其主要特点和步骤包括: 1. 搜索食物(全局搜索):算法模仿白鲸寻找食物的行为。…

流媒体音视频/安防视频云平台/可视化监控平台EasyCVR无法启动且打印panic报错,是什么原因?

国标GB视频监控管理平台/视频集中存储/云存储EasyCVR能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,实现视频资源的鉴权管理、按需调阅、全网分发、智能分析等。AI智能大数据视频分析EasyCVR平台已经广泛应用在工地、工厂、园…

分布式搜索引擎(Elastic Search)+消息队列(RabbitMQ)部署

一、分布式搜索引擎:Elastic Search Elastic Search的目标就是实现搜索。是一款非常强大的开源搜索引擎,可以帮助我们从海量数据中快速找到需要的内容。在数据量少的时候,我们可以通过索引去搜索关系型数据库中的数据,但是如果数…

【C++11】线程库/异常

一:线程库 1.1:线程库(thread) 1.1.1:为什么要有线程库 1.1.2:thread库中的成员函数 1.1.3:线程函数参数 1.2:互斥锁(mutex) 1.2.1:为什么要有互斥锁 1.2.2:C11中的互斥锁 1.3:原子操作(atomic) 1.4:条件变…

Apollo新版本Beta技术沙龙

有幸参加Apollo开发者社区于12月2日举办的Apollo新版本(8.0)的技术沙龙会,地址在首钢园百度Apollo Park。由于去的比较早,先参观了一下这面的一些产品,还有专门的讲解,主要讲了一下百度无人驾驶的发展历程和历代产品。我对下面几个…

Java画爱心

Java画爱心代码,每个人都可以被需要 效果图 源代码 package com.example.test; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.Image; import java.awt.Toolkit; import javax.swing.JFrame; class Cardioid extend…

Java+Swing+Mysql实现超市管理系统

一、系统介绍 1.开发环境 操作系统:Win10 开发工具 :IDEA2018 JDK版本:jdk1.8 数据库:Mysql8.0 2.技术选型 JavaSwingMysql 3.功能模块 4.系统功能 1.系统登录登出 管理员可以登录、退出系统 2.商品信息管理 管理员可以对商品信息…

超完整的mysql安装配置方法(包含idea和navicat连接mysql,并实现建表)

mysql安装配置方法 1、下载mysql2、解压到指定的安装目录3、配置初始化文件my.ini4、配置用户变量和系统变量5、初始化mysql6、安装mysql服务并启动修改密码7、使用idea连接mysql8、使用Navicat可视化工具连接mysql,并实现新建数据库,新建表 1、下载mysq…

C语言-详解指针

目录 一.内存 1.内存的定义 2.内存的结构图 二.地址 1.什么是地址 2.什么是变量的地址 三.什么是指针 1.指针的定义 四.如何获取数据存储空间的地址 1.&运算符 五.指针变量 1.什么是指针变量(一级指针变量) 2.指针变量的定义 3…

<JavaEE> 什么是线程安全?产生线程不安全的原因和处理方式

目录 一、线程安全的概念 二、线程不安全经典示例 三、线程不安全的原因和处理方式 3.1 线程的随机调度和抢占式执行 3.2 修改共享数据 3.3 关键代码或指令不是“原子”的 3.4 内存可见性和指令重排序 四、Java标准库自带的线程安全类 一、线程安全的概念 线程安全是指…

Electron+Ts+Vue+Vite桌面应用系列:sqlite增删改查操作篇

文章目录 1️⃣ sqlite应用1.1 sqlite数据结构1.2 初始化数据库1.3 初始化实体类1.4 操作数据类1.5 页面调用 优质资源分享 作者:xcLeigh 文章地址:https://blog.csdn.net/weixin_43151418/article/details/134692751 ElectronTsVueVite桌面应用系列 &am…

nacos启动报错 java.lang.RuntimeException: [db-load-error]load jdbc.properties error

以standalone mode sh startup.sh -m standalone 为例子 启动nacos 报错: Caused by: org.springframework.boot.web.server.WebServerException: Unable to start embedded Tomcatat org.springframework.boot.web.embedded.tomcat.TomcatWebServer.initialize(To…

Linux中shell的运行原理

在Linux中,每次输入命令时,前面都会出现一串字母,我们称之为命令行提示符 实际上,命令行提示符是一种外壳程序 外壳程序的概念: 前面我们提到过,在Linux中,一切皆文件,所谓的命令就…

C语言 - 字符函数和字符串函数

系列文章目录 文章目录 系列文章目录前言1. 字符分类函数islower 是能够判断参数部分的 c 是否是⼩写字⺟的。 通过返回值来说明是否是⼩写字⺟,如果是⼩写字⺟就返回⾮0的整数,如果不是⼩写字⺟,则返回0。 2. 字符转换函数3. strlen的使⽤和…

批量AI创作文案的工具,批量AI创作文章的软件

人工智能(AI)的应用不断拓展,其中批量AI创作逐渐成为许多文本创作者和企业编辑的热门选择。面对海量的文章需求,批量AI创作工具能够高效、快速地生成大量文本内容,从而减轻创作者的工作负担。本文将专心分享批量AI创作…

【C语言:自定义类型(结构体、位段、共用体、枚举)】

文章目录 1.结构体1.1什么是结构体1.2结构体类型声明1.3结构体变量的定义和初始化1.4结构体的访问 2.结构体对齐2.1如何对齐2.2为什么存在内存对齐? 3.结构体实现位段3.1什么是位段3.2位段的内存分配3.3位段的跨平台问题3.4位段的应用3.5位段使用注意事项 4.联合体4…

Hadoop学习笔记(HDP)-Part.09 安装OpenLDAP

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …