经典关系抽取(一)CasRel(层叠式指针标注)在DuIE2.0数据集上的应用

经典关系抽取(一)CasRel(层叠式指针标注)在DuIE2.0数据集上的应用

  • 关系抽取(Relation Extraction)就是从一段文本中抽取出(主体,关系,客体)这样的三元组,用英文表示是 (subject, relation, object) 。
  • 从关系抽取的定义可以看出,关系抽取主要要做两件事:
    • 识别文本中的subject和object(实体识别)
    • 判断这两个实体属于哪种关系(关系分类)
  • 在解决关系抽取这个任务时,按照模型的结构分为两种,一种是 Pipeline,另一种是 Joint Model。
    • 如果将关系抽取的两个任务分离,先进行实体识别,再进行关系分类,就是 Pipeline 模型。一般认为Pipeline会出现误差传播的情况,也就是实体识别的误差,会影响后面的关系分类任务,但关系分类任务,又无法对实体识别造成的误差进行修正。因为两个任务是独立的,关系分类的loss,无法反向传播给实体识别阶段。
    • 为了优化 Pipeline 存在的问题,就有了 Joint Model(多任务学习的联合抽取模型),本质上还是 Pipeline 的编码方式,也就是先解码出实体,再去解码关系。但跟 Pipeline 不同的是,Joint Model 只计算一次损失,所以loss反向传播,也会对实体识别的误差进行修正
  • 今天,我们介绍一种利用层叠式指针标注(CasRel、大神苏剑林二作)进行关系抽取的模型。
    • 论文链接:https://arxiv.org/abs/1909.03227
    • 论文代码:https://github.com/weizhepei/CasRel(keras实现)
    • 苏神博客介绍:https://kexue.fm/archives/7161

1 实体关系的joint抽取模型简介

  • 我们已经知道pipeline方式主要存在下面几个问题:
    • pipeline方式存在误差积累,还会增加计算复杂度(实体冗余计算)
    • pipeline方式存在交互缺失,忽略实体和关系两个任务之间的内在联系
  • 因此现在关系抽取大都采取joint方式,实体关系的joint抽取模型可分为下面2大类。

1.1 多任务学习

多任务学习(共享参数的联合抽取模型)。多任务学习机制中,实体和关系共享同一个网络编码,但本质上仍然是采取pipeline的解码方式(故仍然存在误差传播问题)。近年来的大部分joint都采取这种共享参数的模式,集中在魔改各种Tag框架和解码方式。下面是几种典型网络结构:

  • 多头选择。构建的关系分类器对每一个实体pair进行关系预测(N为序列长度,C为关系类别总数),输入的实体pair其实是每一个抽取实体的最后一个token。

    • 论文地址:Joint entity recognition and relation extraction as a multi-head selection problem

    • 模型架构:

      在这里插入图片描述

  • 层叠式指针标注。将关系看作是SPO(Subject-Prediction-Object)抽取,先抽取主体Subject,然后对主体感知编码,最后通过层叠式的指针网络抽取关系及其对应的Object。

    • 论文地址:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction
    • 模型架构:

    在这里插入图片描述

  • Span-level NER。通过片段(span)排列抽取实体,然后提取实体对进行关系分类。

    • 论文地址:Span-based Joint Entity and Relation Extraction with Transformer Pre-training(1909)
    • 模型架构:

    在这里插入图片描述

1.2 结构化预测

结构化预测(联合解码的联合抽取模型)

  • 结构化预测则是一个全局优化问题,在推断的时候能够联合解码实体和关系(而不是像多任务学习那样,先抽取实体、再进行关系分类)。
  • 结构化预测的joint模型也有很多,比如:
    • 统一的序列标注框架。Joint extraction of entities and relations based on a novel tagging scheme
    • 多轮QA+强化学习。Entity-Relation Extraction as Multi-Turn Question Answering

2 层叠式指针标注CasRel简介

2.1 背景介绍

  • 以往的方法大多将关系建模为实体対上的一个离散的标签:

    • 首先通过命名实体识别(NER)确定出句子中所有的实体
    • 然后学习一个关系分类器在所有的实体对上做RC,最终得到我们所需的关系三元组
  • 但是这样会出现下面的问题:

    • 类别分布不平衡。多数提取出来的实体对之间无关系
    • 同一实体参与多个有效关系(如下图的重叠三元组),分类器可能会混淆。如果没有足够的训练样例,分类器难以区分(有的多标签分类难以工作就是因为这个)。

    在这里插入图片描述

  • CasRel框架最核心思想:把关系(Relation)建模为将头实体(Subject)映射到尾实体(Object)的函数,而不是将其视为实体对上的标签。

我们不学习关系分类器: f ( s u b j e c t , o b j e c t ) − > r 而是学习关系特定的尾实体 ( o b j e c t ) 标注器 : f r ( s u b j e c t ) − > o b j e c t 我们不学习关系分类器:f(subject,object)->r\\ 而是学习关系特定的尾实体(object)标注器:f_r(subject)->object 我们不学习关系分类器:f(subject,object)>r而是学习关系特定的尾实体(object)标注器:fr(subject)>object

  • 每个尾实体标注器都将在给定关系和头实体的条件下识别出所有可能的尾实体

  • CASREL的做法:

    • 编码器:Bert
    • 序列标注:抽出头实体
    • 关系特定的尾实体标注:对每一个头实体,针对其可能的关系抽取其尾实体,如果不存在尾实体,就无此关系。

2.2 CasRel的网络结构

  • 关系三元组抽取问题被分解为如下的两步过程:

    • 首先,我们确定出句子中所有可能的头实体;
      • 在下图中,我们识别到三个头实体分别为:[Jackie R. Brown]、[Washington]、[United States Of America]
    • 然后针对每个头实体,我们使用关系特定的标注器来同时识别出所有可能的关系和对应的尾实体。
      • 在下图中,头实体[Jackie R. Brown]在特定关系[Birth_place]中识别到了2个尾实体[Washington]和[United States Of America],那么三元组为:(Jackie R. Brown, Birth_place, Washington)、(Jackie R. Brown, Birth_place, United States Of America)
      • 头实体[Washington]在特定关系[Capital_of]中识别到了1个尾实体[United States Of America],那么三元组为:(Washington, Capital_of, United States Of America)
      • 头实体[United States Of America]在所有的关系中都没有识别尾实体,因此没有三元组。
  • 如下图所示,CASREL模型由三个模块构成:

    • BERT编码层模块(BERT Encoder)。

      • 这个是固定操作,就是将token经过Bert后转换为词向量。
    • 主体标记模块(Subject Tagger)。

      • 采用两个相同的二元分类器分别检测主体的起始位置和结束位置。当置信度大于阈值标记为1,小于阈值标记为0。

      在这里插入图片描述
      在这里插入图片描述

      • 主体标记模块损失函数为BCELoss。
    • 特定关系下客体的标记模块(Relation-Specific Object Taggers)。

      • 结构和subject tagger相同,每个关系都有一个object tagger。

      在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2.3 模型局限性

  • 因为实体就近匹配,无法解决实体嵌套的场景,
"""
假设有下面的嵌套实体(叶圣陶和叶圣陶散文选集):叶 圣  陶 散 文  选  集
start  1  0  0  0  0   0  0
end    0  0  1  0  0   0  1
"""......# 1、先筛选出大于阈值的实体头和实体尾的位置start = torch.where(subject_preds[0, :, 0] > 0.6)[0]end = torch.where(subject_preds[0, :, 1] > 0.5)[0]# 2、主体抽取的实现代码subjects = []for i in start:j = end[end >= i]if len(j) > 0:j = j[0]subjects.append((i.item(), j.item()))# 依据代码的逻辑可以看到只能提取到【叶圣陶】实体        
  • 该模型不适用于长段落、篇章级别信息抽取,因为bert位置编码512位,关系无法跨句子;

3 CasRel在DuIE2.0数据集上的应用

  • 这里我们使用一款简洁的训练框架:bert4torch
# bert4torch框架作者知乎:https://www.zhihu.com/people/li-bo-53-72/posts
# https://github.com/Tongjilibo/bert4torch
pip install bert4torch==0.5.0
  • Bert预训练模型依然是哈工大开源的chinese-macbert-base

    • 预训练模型huggingface链接:
      https://huggingface.co/hfl/chinese-macbert-base/tree/main
    • 预训练模型魔搭社区链接:
      https://modelscope.cn/models/dienstag/chinese-macbert-base/files
  • 百度DuIE2.0中文关系抽取数据集:https://www.luge.ai/#/luge/dataDetail?id=5

  • 另外分享一份百度Knowledge Extraction比赛数据集:https://aistudio.baidu.com/datasetdetail/177191

3.1 加载数据集

我们先来看一条训练数据:

{"text": "《邪少兵王》是冰火未央写的网络小说连载于旗峰天下","spo_list": [{"predicate": "作者", // 关系"object_type": {"@value": "人物"},"subject_type": "图书作品","object": {"@value": "冰火未央" // 客体},"subject": "邪少兵王"    // 主体}]
}

我们需要将上面的单条数据转换为下面形式:

// 我们需要将上面的单条数据转换为
//{'text': text, 'spo_list': [(s, p, o)]}
{'text': "《邪少兵王》是冰火未央写的网络小说连载于旗峰天下", 'spo_list': [('邪少兵王', '作者', '冰火未央')]
}
// 然后将text进行编码,获取token_ids和segment_ids,还需要获取主体及客体在token_ids中的位置
{'text': '《邪少兵王》是冰火未央写的网络小说连载于旗峰天下', 'spo_list': [('邪少兵王', '作者', '冰火未央')], 'token_ids': [101, 517, 6932, 2208, 1070, 4374, 518, 3221, 1102, 4125, 3313, 1925, 1091, 4638, 5381, 5317, 2207, 6432, 6825, 6770, 754, 3186, 2292, 1921, 678, 102],'segment_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], // 主体在token_ids中的位置(2, 5),左右都闭// 客体在token_ids中的位置(8, 11)以及关系的id=7'spoes': {(2, 5): [(8, 11, 7)]}
}

具体代码实现如下,在调试时候我们可以选取一部分数据进行测试:

#! -*- coding:utf-8 -*-
import json
import platformimport numpy as np
from bert4torch.layers import LayerNorm
from bert4torch.tokenizers import Tokenizer
from bert4torch.models import build_transformer_model, BaseModel
from bert4torch.snippets import sequence_padding, ListDataset
from bert4torch.callbacks import Callback
from tqdm import tqdm
import torch
from torch.utils.data import DataLoader, Dataset
import torch.optim as optim
import torch.nn as nnmaxlen = 128
batch_size = 64# 获取当前操作系统的名称
os_name = platform.system()# 设置模型路径及数据集路径
if os_name == "Windows":# 这里使用哈工大开源的chinese-macbert-baseconfig_path = r'D:\python\models\berts\chinese-macbert-base\config.json'checkpoint_path = r'D:\python\models\berts\chinese-macbert-base\pytorch_model.bin'dict_path = r'D:\python\models\berts\chinese-macbert-base\vocab.txt'# 数据集使用百度开源的DuIE2.0train_data_path = r'D:\python\datas\nlp_ner\DuIE2.0\duie_train.json'dev_data_path = r'D:\python\datas\nlp_ner\DuIE2.0\duie_dev.json'schema_path = r'D:\python\datas\nlp_ner\DuIE2.0\duie_schema.json'print("当前执行环境是 Windows...")
elif os_name == "Linux":config_path = r'/root/autodl-fs/models/chinese-macbert-base/config.json'checkpoint_path = r'/root/autodl-fs/models/chinese-macbert-base/pytorch_model.bin'dict_path = r'/root/autodl-fs/models/chinese-macbert-base/vocab.txt'train_data_path = r'/root/autodl-fs/data/nlp_ai/nlp_ner/duie2/duie_train.json'dev_data_path = r'/root/autodl-fs/data/nlp_ai/nlp_ner/duie2/duie_dev.json'schema_path = r'/root/autodl-fs/data/nlp_ai/nlp_ner/duie2/duie_schema.json'print("当前执行环境是 Linux...")
else:raise ValueError("当前执行环境不是 Windows 也不是 Linux")device = 'cuda' if torch.cuda.is_available() else 'cpu'# 加载标签字典
predicate2id, id2predicate = {}, {}# with open(r'D:\python\datas\nlp_ner\knowledge_extraction\all_50_schemas', encoding='utf-8') as f:
with open(schema_path, encoding='utf-8') as f:for l in f:l = json.loads(l)if l['predicate'] not in predicate2id:id2predicate[len(predicate2id)] = l['predicate']predicate2id[l['predicate']] = len(predicate2id)# 建立分词器
tokenizer = Tokenizer(dict_path, do_lower_case=True)# 解析样本
def get_spoes(text, spo_list):'''单独抽出来,这样读取数据时候,可以根据spoes来选择跳过'''def search(pattern, sequence):"""从sequence中寻找子串pattern如果找到,返回第一个下标;否则返回-1。"""n = len(pattern)for i in range(len(sequence)):if sequence[i:i + n] == pattern:return ireturn -1token_ids, segment_ids = tokenizer.encode(text, maxlen=maxlen)# 整理三元组 {s: [(o, p)]}spoes = {}for s, p, o in spo_list:s = tokenizer.encode(s)[0][1:-1]p = predicate2id[p]o = tokenizer.encode(o)[0][1:-1]s_idx = search(s, token_ids)o_idx = search(o, token_ids)if s_idx != -1 and o_idx != -1:s = (s_idx, s_idx + len(s) - 1)o = (o_idx, o_idx + len(o) - 1, p)if s not in spoes:spoes[s] = []spoes[s].append(o)return token_ids, segment_ids, spoes# 加载数据集
class MyDataset(ListDataset):@staticmethoddef load_data(filename):"""加载数据单条格式:{'text': text, 'spo_list': [(s, p, o)]}"""D = []with open(filename, encoding='utf-8') as f:for l in tqdm(f):l = json.loads(l)labels = [(spo['subject'], spo['predicate'], spo['object']['@value']) for spo in l['spo_list']]token_ids, segment_ids, spoes = get_spoes(l['text'], labels)if spoes:D.append({'text': l['text'], 'spo_list': labels, 'token_ids': token_ids, 'segment_ids': segment_ids, 'spoes': spoes})# 这里可以选一部分数据进行测试    # if len(D) > 100:#     breakprint(f'loaded data nums = {len(D)} from {filename}')return D

3.2 构建DataLoader

  • 利用collate_fn方法构建subject标签、object标签,并进行填充
  • 注意:这里是随机选一个subject
def collate_fn(batch):batch_token_ids, batch_segment_ids = [], []batch_subject_labels, batch_subject_ids, batch_object_labels = [], [], []for d in batch:token_ids, segment_ids, spoes = d['token_ids'], d['segment_ids'], d['spoes']if spoes:# 1、subject标签subject_labels = np.zeros((len(token_ids), 2))for s in spoes:subject_labels[s[0], 0] = 1  # subject首subject_labels[s[1], 1] = 1  # subject尾# 随机选一个subject(这里没有实现错误!这就是想要的效果!!)start, end = np.array(list(spoes.keys())).Tstart = np.random.choice(start)end = np.random.choice(end[end >= start])subject_ids = (start, end)# 2、对应的object标签# 后面sequence_padding方法中是对第1维数据进行填充,因此需要把len(token_ids)放在第1维object_labels = np.zeros((len(token_ids), len(predicate2id), 2))for o in spoes.get(subject_ids, []):object_labels[o[0], o[2], 0] = 1object_labels[o[1], o[2], 1] = 1# 构建batchbatch_token_ids.append(token_ids)batch_segment_ids.append(segment_ids)batch_subject_labels.append(subject_labels)batch_subject_ids.append(subject_ids)batch_object_labels.append(object_labels)# 填充batch_token_ids = torch.tensor(sequence_padding(batch_token_ids), dtype=torch.long, device=device)batch_segment_ids = torch.tensor(sequence_padding(batch_segment_ids), dtype=torch.long, device=device)batch_subject_labels = torch.tensor(sequence_padding(batch_subject_labels), dtype=torch.float, device=device)batch_subject_ids = torch.tensor(batch_subject_ids, dtype=torch.long, device=device)batch_object_labels = torch.tensor(sequence_padding(batch_object_labels), dtype=torch.float, device=device)batch_attention_mask = (batch_token_ids != tokenizer._token_pad_id)return [batch_token_ids, batch_segment_ids, batch_subject_ids], [batch_subject_labels, batch_object_labels, batch_attention_mask]# 构造训练集的DataLoader
train_dataset = MyDataset(train_data_path)
train_dataloader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True, collate_fn=collate_fn)# 构造测试集的DataLoader
valid_dataset = MyDataset(dev_data_path)
valid_dataloader = DataLoader(valid_dataset, batch_size=batch_size, collate_fn=collate_fn)

3.3 定义CasRel模型

  • 注意:这里使用Conditional Layer Normalization将subject融入到object的预测中
  • 常见的归一化可以参考:
    Pytorch常用的函数(六)常见的归一化总结(BatchNorm/LayerNorm/InsNorm/GroupNorm)
  • 我们看下condLayerNorm实现的核心代码:
# bert4torch/layers/core.py
class LayerNorm(nn.Module):def __init__(self, hidden_size:int, eps:float=1e-12, conditional_size:Union[bool, int]=False, weight:bool=True, bias:bool=True, norm_mode:Literal['normal', 'torch_buildin', 'rmsnorm']='normal', **kwargs):""" layernorm层,自行实现是为了兼容conditianal layernorm,使得可以做条件文本生成、条件分类等任务:param hidden_size: int, layernorm的神经元个数:param eps: float:param conditional_size: int, condition layernorm的神经元个数; 详情:https://spaces.ac.cn/archives/7124:param weight: bool, 是否包含权重:param bias: bool, 是否包含偏置:param norm_mode: str, `normal`, `rmsnorm`, `torch_buildin`"""......# 条件layernorm, 用于条件文本生成if conditional_size:# 这里采用全零初始化, 目的是在初始状态不干扰原来的预训练权重self.dense1 = nn.Linear(conditional_size, hidden_size, bias=False)self.dense1.weight.data.uniform_(0, 0)self.dense2 = nn.Linear(conditional_size, hidden_size, bias=False)self.dense2.weight.data.uniform_(0, 0)def forward(self, hidden_states:torch.FloatTensor, cond:Optional[torch.Tensor]=None):......# 自行实现的LayerNormelse:u = hidden_states.mean(-1, keepdim=True)s = (hidden_states - u).pow(2).mean(-1, keepdim=True)o = (hidden_states - u) / torch.sqrt(s + self.eps)if not hasattr(self, 'weight'):self.weight = 1if self.conditional_size and (cond is not None):# 会进入此分支for _ in range(len(hidden_states.shape) - len(cond.shape)):# cond就是将subject的start和end向量concat一起# [bs, hidden_size*2] -> [bs, 1, hidden_size*2]cond = cond.unsqueeze(dim=1)# 通过下面代码将subject融入到object的预测中# o是经过原始LayerNorm后的值# (self.weight + self.dense1(cond))相当于gamma# self.dense2(cond)相当于betaoutput = (self.weight + self.dense1(cond)) * o + self.dense2(cond)else:output = self.weight * oif hasattr(self, 'bias') and (self.bias is not None):output += self.biasreturn output.type_as(hidden_states)
# 定义bert上的模型结构
class Model(BaseModel):def __init__(self) -> None:super().__init__()self.bert = build_transformer_model(config_path, checkpoint_path)self.linear1 = nn.Linear(768, 2)"""苏神博客:https://spaces.ac.cn/archives/7124在Bert等Transformer模型中,主要的Normalization方法是Layer Normalization,所以很自然就能想到将对应的β和γ变成输入条件的函数,来控制Transformer模型的生成行为,这就是Conditional Layer Normalization的线索思路。这里通过Conditional Layer Normalization将subject融入到object的预测中    """self.condLayerNorm = LayerNorm(hidden_size=768, conditional_size=768*2)self.linear2 = nn.Linear(768, len(predicate2id)*2)@staticmethoddef extract_subject(inputs):"""根据subject_ids从output中取出subject的向量表征:param inputs: [seq_output, subject_ids]seq_output是模型预测的每个token属于start和end概率结果,shape=(bs, seq_len, hidden_size)subject_ids是主体的id,shape=(bs, 2):return: subject的向量表征 shape = (bs, hidden_size * 2)"""output, subject_ids = inputs# torch.gather函数:https://blog.csdn.net/qq_44665283/article/details/134088676# 1、取出主体start和end向量的向量表征# start shape = (bs, 1, hidden_size)start = torch.gather(output, dim=1, index=subject_ids[:, :1].unsqueeze(2).expand(-1, -1, output.shape[-1]))# end shape = (bs, 1, hidden_size)end = torch.gather(output, dim=1, index=subject_ids[:, 1:].unsqueeze(2).expand(-1, -1, output.shape[-1]))# 2、concatsubject = torch.cat([start, end], 2)return subject[:, 0]def forward(self, *inputs):""":param inputs: collate_fn函数会将batch数据集组装成train_X, train_y这里的inputs就是train_X,即[batch_token_ids, batch_segment_ids, batch_subject_ids]:return: 主体和客体的预测值"""token_ids, segment_ids, subject_ids = inputs# 预测subjectseq_output = self.bert(token_ids, segment_ids)  # [bs, seq_len, hidden_size]subject_preds = (torch.sigmoid(self.linear1(seq_output)))**2  # [btz, seq_len, 2]# 传入subject,预测objectsubject = self.extract_subject([seq_output, subject_ids])# Note: 通过Conditional Layer Normalization将subject融入到object的预测中# 理论上应该用LayerNorm前的,但是这样只能返回各个block顶层输出,这里和keras实现不一致output = self.condLayerNorm(seq_output, subject)# 进行客体的分类预测output = (torch.sigmoid(self.linear2(output)))**4# (bs, seq_len, len(predicate2id)*2) -> (bs, seq_len, len(predicate2id), 2)object_preds = output.reshape(*output.shape[:2], len(predicate2id), 2)return [subject_preds, object_preds]def predict_subject(self, inputs):"""主体预测:param inputs: [batch_token_ids, batch_segment_ids, batch_subject_ids]:return: [seq_output, subject_preds]每个token的向量表示:seq_output shape = [bs, seq_len, hidden_size]每个token属于主体的start和end的概率:subject_preds shape = [bs, seq_len, 2]"""self.eval()with torch.no_grad():seq_output = self.bert(inputs[:2])  # [bs, seq_len, hidden_size]subject_preds = (torch.sigmoid(self.linear1(seq_output)))**2  # [bs, seq_len, 2]return [seq_output, subject_preds]def predict_object(self, inputs):"""客体预测:param inputs: 主体预测的输出[seq_output, subject_preds]:return: 客体预测结果 shape = (bs, seq_len, len(predicate2id), 2)"""self.eval()with torch.no_grad():seq_output, subject_ids = inputs# 根据subject_ids从output中取出subject的向量表征subject = self.extract_subject([seq_output, subject_ids])# 通过Conditional Layer Normalization将subject融入到object的预测中output = self.condLayerNorm(seq_output, subject)# 客体预测的置信度output = (torch.sigmoid(self.linear2(output)))**4object_preds = output.reshape(*output.shape[:2], len(predicate2id), 2)return object_predstrain_model = Model().to(device)

3.4 定义损失函数、评估函数

  • 损失函数就是主体BCELoss+客体BCELoss
  • 评估函数,计算f1、precision、recall
class BCELoss(nn.BCELoss):def __init__(self, **kwargs):super().__init__(**kwargs)def forward(self, inputs, targets):"""loss计算:param inputs: Model模型forward方法的输出内容,即[subject_preds, object_preds]:param targets: collate_fn函数会将batch数据集组装成train_X, train_y这里的targets就是train_y,即[batch_subject_labels, batch_object_labels, batch_attention_mask]:return: 主体loss+客体loss"""subject_preds, object_preds = inputssubject_labels, object_labels, mask = targets# sujuect部分losssubject_loss = super().forward(subject_preds, subject_labels)subject_loss = subject_loss.mean(dim=-1)subject_loss = (subject_loss * mask).sum() / mask.sum()# object部分lossobject_loss = super().forward(object_preds, object_labels)object_loss = object_loss.mean(dim=-1).sum(dim=-1)object_loss = (object_loss * mask).sum() / mask.sum()return subject_loss + object_losstrain_model.compile(loss=BCELoss(reduction='none'), optimizer=optim.Adam(train_model.parameters(), 1e-5))def extract_spoes(text):"""抽取输入text所包含的三元组"""tokens = tokenizer.tokenize(text, maxlen=maxlen)mapping = tokenizer.rematch(text, tokens)token_ids, segment_ids = tokenizer.encode(text, maxlen=maxlen)token_ids = torch.tensor([token_ids], dtype=torch.long, device=device)segment_ids = torch.tensor([segment_ids], dtype=torch.long, device=device)# 抽取subject,主体头和尾的阈值分别为:0.6和0.5seq_output, subject_preds = train_model.predict_subject([token_ids, segment_ids])subject_preds[:, [0, -1]] *= 0  # 首cls, 尾sep置为0# 1、先筛选出大于阈值的实体头和实体尾的位置start = torch.where(subject_preds[0, :, 0] > 0.6)[0]end = torch.where(subject_preds[0, :, 1] > 0.5)[0]# 2、主体抽取的实现代码subjects = []for i in start:j = end[end >= i]if len(j) > 0:j = j[0]subjects.append((i.item(), j.item()))# 3、如果存在主体,就构造(主体、关系、客体)三元组if subjects:spoes = []seq_output = seq_output.repeat([len(subjects)]+[1]*(len(seq_output.shape)-1))subjects = torch.tensor(subjects, dtype=torch.long, device=device)# 传入subject,抽取object和predicateobject_preds = train_model.predict_object([seq_output, subjects])object_preds[:, [0, -1]] *= 0for subject, object_pred in zip(subjects, object_preds):# 客体的阈值start = torch.where(object_pred[:, :, 0] > 0.6)end = torch.where(object_pred[:, :, 1] > 0.5)for _start, predicate1 in zip(*start):for _end, predicate2 in zip(*end):if _start <= _end and predicate1 == predicate2:spoes.append(((mapping[subject[0]][0], mapping[subject[1]][-1]),predicate1.item(),(mapping[_start][0], mapping[_end][-1])))breakreturn [(text[s[0]:s[1] + 1], id2predicate[p], text[o[0]:o[1] + 1])for s, p, o, in spoes]else:return []class SPO(tuple):"""用来存三元组的类表现跟tuple基本一致,只是重写了 __hash__ 和 __eq__ 方法,使得在判断两个三元组是否等价时容错性更好。"""def __init__(self, spo):self.spox = (tuple(tokenizer.tokenize(spo[0])),spo[1],# tuple(tokenizer.tokenize(spo[2])),tuple(tokenizer.tokenize(spo[2])),)def __hash__(self):return self.spox.__hash__()def __eq__(self, spo):return self.spox == spo.spoxdef evaluate(data):"""评估函数,计算f1、precision、recall"""X, Y, Z = 1e-10, 1e-10, 1e-10f = open('dev_pred.json', 'w', encoding='utf-8')pbar = tqdm()for d in data:# 预测三元组集合R = set([SPO(spo) for spo in extract_spoes(d['text'])])# 真实三元组集合T = set([SPO(spo) for spo in d['spo_list']])X += len(R & T)Y += len(R)Z += len(T)# 计算f1、precision、recall指标f1, precision, recall = 2 * X / (Y + Z), X / Y, X / Zpbar.update()pbar.set_description('f1: %.5f, precision: %.5f, recall: %.5f' % (f1, precision, recall))s = json.dumps({'text': d['text'],'spo_list': list(T),'spo_list_pred': list(R),'new': list(R - T),'lack': list(T - R),},ensure_ascii=False,indent=4)f.write(s + '\n')pbar.close()f.close()return f1, precision, recallclass Evaluator(Callback):"""评估与保存"""def __init__(self):self.best_val_f1 = 0.def on_epoch_end(self, steps, epoch, logs=None):# optimizer.apply_ema_weights()f1, precision, recall = evaluate(valid_dataset.data)if f1 >= self.best_val_f1:self.best_val_f1 = f1train_model.save_weights('best_model.pt')# optimizer.reset_old_weights()print('f1: %.5f, precision: %.5f, recall: %.5f, best f1: %.5f\n' %(f1, precision, recall, self.best_val_f1))if __name__ == '__main__':# 训练if True:evaluator = Evaluator()train_model.fit(train_dataloader, steps_per_epoch=None, epochs=5, callbacks=[evaluator])# 预测并评估else:train_model.load_weights('best_model.pt')f1, precision, recall = evaluate(valid_dataset.data)
# batch_size = 64设置下,训练过程中的资源消耗(2080Ti)
# 全量数据进行训练,训练一个epoch消耗时间25min左右
(transformers) root@autodl-container-adbc11ae52-f2ebff02:~/autodl-tmp/NLP_AI/a_re# nvidia-smi 
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.89.02    Driver Version: 525.89.02    CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA GeForce ...  On   | 00000000:B2:00.0 Off |                  N/A |
|111%   74C    P2   240W / 250W |  10940MiB / 11264MiB |     96%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------++-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
+-----------------------------------------------------------------------------+
# 这里只训练了5个epochs,有兴趣的可以多训练一些批次
# 训练5个epochs的效果如下
f1: 0.74309, precision: 0.78018, recall: 0.70936

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/376100.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python作业三

1.使用requests模块获取这个json文件http://java-api.super-yx.com/html/hello.json 2.将获取到的json转为dict 3.将dict保存为hello.json文件 4.用io流写一个copy(src,dst)函数,复制hello.json到C:\hello.json import json import shutilimport requests #使用requests模块获…

CDN在App分发中的作用

CDN&#xff08;Content Delivery Network&#xff0c;内容分发网络&#xff09;在App分发中扮演着至关重要的角色。它通过一系列技术手段&#xff0c;将App的内容高效、快速地传递给用户&#xff0c;显著提升用户体验和下载速度。以下是CDN在App分发中的具体作用和优势&#x…

[RuoYi-Vue] - 1. 项目搭建

文章目录 &#x1f42c;初始化后端项目拉取RuoYi-Vue代码Maven构建导入数据库ry-vue修改配置信息启动Redis启动项目 &#x1f30c;初始化前端项目拉取RuoYi-Vue3代码项目运行成功页面 &#x1f42c;初始化后端项目 拉取RuoYi-Vue代码 若依/RuoYi-Vue 代码地址 Maven构建 导入数…

react启用mobx @decorators装饰器语法

react如果没有经过配置&#xff0c;直接使用decorators装饰器语法会报错&#xff1a; Support for the experimental syntax ‘decorators’ isn’t currently enabled 因为react默认是不支持装饰器语法&#xff0c;需要做一些配置来启用装饰器语法。 step1: 在 tsconfig.js…

nginx基本概念和安装

一. 简介 1.1 是什么 nginx是一个高性能的HTTP和反向代理web服务器&#xff0c;是一款轻量级的Web服务器/反向代理服务器/电子邮件(IMAP/POP3)代理服务器&#xff0c;在BSD-like协议下发行&#xff0c;特点是占有内存少&#xff0c;并发能力强。ngnix专为性能优化而开发&#…

如何利用桌面工作计划软件制定自己的to do清单?

在我们的日常生活和工作中&#xff0c;经常会遇到各种各样的任务需要完成。如果没有一个明确的计划和安排&#xff0c;我们可能会感到混乱和压力&#xff0c;而桌面工作计划软件可以帮助我们更好地管理和规划我们的时间和任务。今天&#xff0c;我们就来聊聊如何利用这些工具&a…

Linux 一键部署Mysql 8.4.1 LTS

mysql 前言 MySQL 是一个基于 SQL(Structured Query Language)的数据库系统,SQL 是一种用于访问和管理数据库的标准语言。MySQL 以其高性能、稳定性和易用性而闻名,它被广泛应用于各种场景,包括: Web 应用程序:许多动态网站和内容管理系统(如 WordPress)使用 MySQL 存…

红日靶场----(三)1.漏洞利用

上期已经信息收集阶段已经完成&#xff0c;接下来是漏洞利用。 靶场思路 通过信息收集得到两个吧靶场的思路 1、http://192.168.195.33/phpmyadmin/&#xff08;数据库的管理界面&#xff09; root/root 2、http://192.168.195.33/yxcms/index.php?radmin/index/login&am…

LDR6282-显示器:从技术革新到视觉盛宴

显示器&#xff0c;作为我们日常工作和娱乐生活中不可或缺的一部分&#xff0c;承载着将虚拟世界呈现为现实图像的重要使命。它不仅是我们与电子设备交互的桥梁&#xff0c;更是我们感知信息、享受视觉盛宴的重要窗口。显示器在各个领域的应用也越来越广泛。在办公领域&#xf…

【前端速通系列|第二篇】Vue3前置知识

文章目录 1.前言2.包管理工具npm2.1下载node.js2.2配置 npm 镜像源2.3 npm 常用命令 3.Vite构建工具4.Vue3组件化5.Vue3运行原理 1.前言 本系列文章旨在帮助大家快速上手前端开发。 2.包管理工具npm npm 是 node.js中进行 包管理 的工具. 类似于Java中的Maven。 2.1下载nod…

创建React 项目的几种方式

①.react自带脚手架 使用步骤&#xff1a;&#xff08;自动&#xff09; 1、下载 npm i create-react-app -g 2、创建项目命令&#xff1a; create-react-app 项目名称 ②.Vite构建工具创建react步骤&#xff1a;&#xff08;推荐&#xff09; 方法一&#xff1a; 1、yarn cr…

【笔记】dbeaver导出数据库结构+数据 再导入其他数据库

导出&#xff1a; 导入 然后将语句粘贴进去 会有报错 选全部跳过 然后就全部添加成功了 虽然我不知道为什么报错 但是能加进去数据结构和数据都在就无所谓了 第二个版本 DBeaver导出sql脚本&#xff0c;执行sql脚本-CSDN博客 通过工具 DBeaver操作 MySQL导入备份的 sql 报错…

kali安装vulhub遇到的问题及解决方法(docker及docker镜像源更换)

kali安装vulhub&#xff1a; 提示&#xff1a;项目地址 https://github.com/vulhub/vulhub 项目安装&#xff1a; git clone https://github.com/vulhub/vulhub.git 安装docker 提示&#xff1a;普通用户请使用sudo&#xff1a; 首先安装 https 协议、CA 证书 apt-get in…

【机器学习】使用决策树分类器预测汽车安全性的研究与分析

文章目录 一、决策树算法简介决策树的结构分类和回归树 (CART)决策树算法术语决策树算法直觉 二、属性选择度量信息增益熵 基尼指数计算分割基尼指数的步骤 三、决策树算法中的过度拟合避免过度拟合的方法 四、导入库和数据可视化探索性数据分析重命名列名查看数据集的总结信息…

我的AI音乐梦:ChatGPT帮我做专辑

​&#x1f308;个人主页&#xff1a;前端青山 &#x1f525;系列专栏&#xff1a;AI篇 &#x1f516;人终将被年少不可得之物困其一生 依旧青山,本期给大家带来ChatGPT帮我做音乐专辑 嘿&#xff0c;朋友们&#xff01; 想象一下&#xff0c;如果有个超级聪明的机器人能帮你写…

Linux Mac 安装Higress 平替 Spring Cloud Gateway

Linux Mac 安装Higress 平替 Spring Cloud Gateway Higress是什么?传统网关分类Higress定位下载安装包执行安装命令执行脚本 安装成功打开管理界面使用方法configure.shreset.shstartup.shshutdown.shstatus.shlogs.sh Higress官网 Higress是什么? Higress是基于阿里内部的…

java LogUtil输出日志打日志的class文件内具体方法和行号

最近琢磨怎么把日志打的更清晰&#xff0c;方便查找问题&#xff0c;又不需要在每个class内都创建Logger对象&#xff0c;还带上不同的颜色做区分&#xff0c;简直不要太爽。利用堆栈的方向顺序拿到日志的class问题。看效果&#xff0c;直接上代码。 1、demo test 2、输出效果…

将vue项目整合到springboot项目中并在阿里云上运行

第一步&#xff0c;使用springboot中的thymeleaf模板引擎 导入依赖 <!-- thymeleaf 模板 --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-thymeleaf</artifactId></dependency> 在r…

Golang:数据科学领域中的高性能并发编程新星

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 文章内容 📒📝 并发性能的卓越表现📝 系统级工具的便捷性📝 语言设计的简洁性📝 强类型系统的严格性📝 版本兼容性的稳定性📝 内置工具的全面性⚓️ 相关链接 ⚓️📖 介绍 📖 在数据科学和机器学习的广阔天地…

力扣-回溯法

何为回溯法&#xff1f; 在搜索到某一节点的时候&#xff0c;如果我们发现目前的节点&#xff08;及其子节点&#xff09;并不是需求目标时&#xff0c;我们回退到原来的节点继续搜索&#xff0c;并且把在目前节点修改的状态还原。 记住两个小诀窍&#xff0c;一是按引用传状态…