论文浅尝 | 以词-词关系进行分类的统一命名实体识别

笔记整理：曹旭东，东南大学硕士，研究方向为知识图谱构建、自然语言处理

链接：https://arxiv.org/abs/2112.10070

1. 动机

在以前的工作中，命名实体识别（NER）涉及的主要问题有三种类型，包括平面、重叠（也称为嵌套）和不连续的命名实体识别，这些类型大多分别研究。最近，对于统一的NER模型的研究越来越多，它只需一个模型，就可以同时处理上述三种问题。目前表现最佳的方法主要包括基于span的模型和sequence-to-sequence模型，然而，现有的最优方法都有着不足，前者主要关注边界识别，后者可能受到曝光偏差的影响。

为了继续提升统一NER的效果，文章提出了一种新颖的方法，将统一的NER建模为word-word关系分类，即W2NER。该架构通过有效地建模实体词之间的相邻关系，解决了统一的NER的核心瓶颈。基于W2NER方案，文章开发了一个神经框架，其中统一的NER被建模为一个单词对的2D网格。然后，提出了多粒度的2D卷积来更好地调整网格表示。最后，使用共同预测器充分推理单词之间的关系。

2. 贡献

文章的贡献有：

（1）提出了一种创新的方法，将统一的命名实体识别（NER）视为word-word关系分类，同时充分考虑了实体边界词之间的关系和实体内部词之间的关系；

（2）为统一的命名实体识别（NER）开发了一个神经网络框架，在其中提出了一种多粒度的二维卷积方法，以充分捕捉近距离和远距离单词之间的相互作用；

3. 方法

（1）将NER看作word-word关系分类

任务可以形式化如下: 给定一个由N个token或word组成的输入句子X = {x1, x2，…， xN}，任务旨在提取每个标记对(xi, xj)之间的关系R，其中R是预定义的，包括NONE, Next-Neighboring-Word (NNW)和Tail-Head-Word-* (THW-*)。这些关系如图1所示的示例：

I am having aching in legs and shoulders

图1 关系分类示例

• NONE，表示该单词对在本文中没有定义任何关系。

• Next-Neighboring-Word（NNW）：NNW关系表示该单词对属于一个实体

• Tail-Head-Word-*（THW）：THW关系表示网格中某一行的单词是实体提及的尾部，而网格中某一列的单词是实体提及的头部。“*”表示实体类型。

在示例中，说明aching-in, in-legs, in-shoulders之间是NNW，aching-legs, aching-shoulders之间是THW-S(symptom)

（2）模型框架：如下图2所示为本文提出的统一的命名实体识别（NER）的神经网络框架W2NER。

图2神经框架

框架的体系结构如图2所示，它主要由三个组件组成。

•编码器层：

利用BERT作为模型的输入。给定一个输入句子，将每个标记或单词转换为词块，然后将它们输入预训练的BERT模块。经过BERT计算后，每个句子词可能包含几个片段的向量表示。为了进一步增强上下文建模，采用双向LSTM生成最终的单词表示。

•卷积层：

卷积层包括三个模块，包括一个具有规范化的条件层，用于生成词对网格的表示，一个BERT风格的网格表示构建，以丰富词对网格的表示，以及一个多粒度扩展卷积，用于捕获近词和远词之间的相互作用。

条件层：由于NNW关系和THW关系都是有方向的，因此，单词对的表示可以认为是的表示和的表示的组合，这种组合应该意味着以为条件。采用条件层归一化(Conditional Layer Normalization, CLN)机制来计算：

其中，为产生层归一化增益参数 γαα 和偏置 λββ 的条件。µ和σ是各元素之间的均值和标准差。

BERT风格的网格：在BERT的启发下，用类似的思路丰富了词对网格的表示，其中张量表示单词信息，张量表示每对单词之间的相对位置信息，张量表示网格中用于区分上下三角形区域的区域信息。然后，将三种嵌入连接起来，并采用多层感知器(MLP)将其降维并混合这些信息，以获得网格的位置区域感知表示。

多粒度扩展卷积：在TextCNN的启发下，采用不同扩展率l(例如，l∈[1,2,3])的多个二维扩展卷积(DConv)来捕捉不同距离的单词之间的相互作用。

•共同预测层：

同时使用Biaffine和MLP这两个预测器来计算两个独立的词对的关系分布，并将它们组合起来作为最终的预测。

（3）损失函数

对于每个句子，的训练目标是最小化负对数似然损失形式化为：

其中N是句子中的单词数，是表示单词对的关系标签的二进制向量，是预测的概率向量。r表示预定义关系集R的第r个关系。

4. 实验

（1）实验相关数据集

为了评估三个NER子任务框架，在14个数据集上进行了实验。

扁平的NER数据集有：CoNLL-2003，OntoNotes 5.0，OntoNotes 4.0，Weibo，Resume

实体重叠的NER数据集：ACE 2004中文和英文，ACE 2005中文和英文，GENIA

实体不连续的NER数据集：CADEC，ShARe13，ShARe14

选取的baselines有：Tagging-based方法，Span-based方法，Hypergraph-based方法，Seq2Seq方法等等。

（2）实验结果

对比实验：

在六个扁平数据集上评估框架。如表1所示，W2NER模型在CoNLL 2003和OntoNotes 5.0数据集上获得了93.07% F1和90.50% F1的最佳性能。W2NER模型在OntoNotes 5.0上的F1比另一个统一的NER框架高出0.23%。中文数据集的结果如表2所示，其中基线均为基于标注的方法。发现W2NER模型在OntoNotes 4.0、MSRA、Resume和Weibo上分别比之前的SoTA结果高出0.27%、0.01%、0.54%和1.82%。

表1 英文扁平NER数据集的结果

表2 中文扁平NER数据集的结果

表3给出了重叠的NER数据集和不连续NER数据集的结果。W2NER模型优于以前的工作。

表3 英文重叠NER数据集的结果

表4 不连续NER数据集的结果

消融实验：

表5 消融实验结果

在CoNLL2003、ACE2005和CADEC数据集上消融了模型的各个部分。验证了多粒度扩展卷积的有效性，同时也证明了NNW关系对结果的重要性。

5. 总结

本文提出了一种对NER任务新颖的建模方法，看作word-word的关系预测，并且验证了NONE, Next-Neighboring-Word (NNW)和Tail-Head-Word-* (THW-*)的关系预测，可以很好的支撑NER的进行，同时解决了统一NER的问题，提出的新的模型表现优于已有模型。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。