一、介绍
作为理解、生成和处理自然语言文本的有效方法,自然语言处理 (NLP) 的研究近年来迅速普及并被广泛采用。鉴于NLP的快速发展,获得该领域的概述和维护它是困难的。这篇博文旨在提供NLP不同研究领域的结构化概述,并分析该领域的最新趋势。
研究领域是通常由(但不限于)任务或技术组成的学科和概念。
在本文中,我们将调查以下问题:
- NLP中研究的不同研究领域是什么?
- NLP研究文献的特点和发展是什么?
- NLP未来工作的趋势和方向是什么?
尽管NLP中的大多数研究领域都是众所周知和定义的,但目前没有常用的分类法或分类方案试图以一致和可理解的格式收集和构建这些研究领域。因此,很难对NLP研究的整个领域有一个概述。虽然会议和教科书中有NLP主题列表,但它们往往差异很大,而且通常过于宽泛或过于专业。因此,我们开发了一个分类法,涵盖了NLP中广泛的不同研究领域。尽管该分类法可能不包括所有可能的NLP概念,但它涵盖了广泛的最流行的研究领域,因此缺失的研究领域可以被视为所包含研究领域的子主题。在开发分类法时,我们发现某些较低级别的研究领域必须分配给多个较高级别的研究领域,而不仅仅是一个。因此,一些研究领域在NLP分类法中多次列出,但被分配到不同的更高级别的研究领域。最终的分类法是在与领域专家一起在迭代过程中经验开发的。
分类法作为一个总体分类方案,其中NLP出版物可以根据至少一个包含的研究领域进行分类,即使它们不直接涉及其中一个研究领域,而只是其中的子主题。为了分析NLP的最新发展,我们训练了一个弱监督模型,根据NLP分类法对ACL选集论文进行分类。
您可以在我们的论文中阅读有关分类模型和NLP分类法开发过程的更多详细信息。
二、NLP 的不同研究领域
以下部分提供了上述NLP分类中包含的研究概念领域的简短解释。
2.1 综合
多模态是指系统或方法处理不同类型或模态输入的能力(Garg 等人,2022 年)。我们区分可以处理自然语言文本以及视觉数据,语音和音频,编程语言或结构化数据(如表格或图形)的系统。
2.2 自然语言界面
自然语言接口可以基于自然语言查询处理数据(Voigt 等人,2021 年),通常实现为问答或对话和对话系统。
2.3 语义文本处理
这个高级研究领域包括所有类型的概念,这些概念试图从自然语言中获取意义,并使机器能够从语义上解释文本数据。在这方面最强大的研究领域之一是试图学习单词序列的联合概率函数的语言模型(Bengio et al., 2000)。语言模型训练的最新进展使这些模型能够成功执行各种下游 NLP 任务(Soni 等人,2022 年)。在表示学习中,语义文本表示通常以嵌入的形式学习(Fu等人,2022),可用于比较语义搜索设置中文本的语义相似性(Reimers 和 Gurevych,2019)。此外,可以合并知识表示,例如以知识图的形式,以改进各种 NLP 任务(Schneider 等人,2022 年)。
2.4 情绪分析
情感分析试图从文本中识别和提取主观信息(Wankhade 等人,2022 年)。通常,研究侧重于从文本中提取观点、情感或极性。最近,基于方面的情感分析作为一种提供比一般情感分析更详细信息的方法出现,因为它旨在预测文本中给定方面或实体的情感极性(Xue and Li,2018)。
2.5 句法文本处理
这个高级研究领域旨在分析文本的语法语法和词汇(Bessmertny et al., 2016)。在这种情况下,代表性任务是句法解析句子中的单词依赖关系,将单词标记为各自的词性,将文本分割成连贯的部分,或纠正语法和拼写方面的错误文本。
2.6 语言学与认知NLP
语言学和认知NLP处理自然语言,基于我们的语言能力牢牢植根于我们的认知能力的假设,意义本质上是概念化,语法是由用法塑造的(Dabrowska和Divjak,2015)。存在许多不同的语言理论,这些理论通常认为语言习得受通用语法规则的支配,这些规则对所有正常发育的人类都是通用的(Wise and Sevcik,2017)。心理语言学试图模拟人类大脑如何获取和产生语言,处理语言,理解语言并提供反馈(Balamurugan,2018)。认知建模涉及以各种形式建模和模拟人类认知过程,尤其是以计算或数学形式(Sun,2020)。
2.7 负责任和值得信赖的NLP
负责任和值得信赖的 NLP 关注实施以公平、可解释性、问责制和道德方面为核心的方法(Barredo Arrieta 等人,2020 年)。绿色和可持续的NLP主要关注文本处理的有效方法,而低资源NLP旨在在数据稀缺时执行NLP任务。此外,NLP 中的鲁棒性试图开发对偏差不敏感、抗数据扰动且可靠的分布外预测模型。
2.8 推理
推理使机器能够得出逻辑结论,并根据可用的信息,使用演绎和归纳等技术得出新知识。参数挖掘自动识别并提取推理和推理的结构,这些结构表示为自然语言文本中呈现的参数(Lawrence和Reed,2019)。文本推理,通常建模为蕴涵问题,自动确定是否可以从给定的前提推断出自然语言假设(MacCartney和Manning,2007)。常识推理使用文本中未明确提供的世界知识来连接前提和假设(Ponti 等人,2020 年),而数字推理执行算术运算(Al-Negheimish 等人,2021 年)。机器阅读理解旨在教机器根据给定的段落确定问题的正确答案(Zhang 等人,2021 年)。
2.9 多语言
多语言处理涉及多种自然语言的所有类型的NLP任务,并且通常在机器翻译中进行研究。此外,代码切换可以在单个句子内或句子之间自由交换多种语言(Diwan 等人,2021 年),而跨语言传输技术使用一种语言可用的数据和模型来解决另一种语言的 NLP 任务。
2.10 信息检索
信息检索涉及从大型馆藏中查找满足信息需求的文本(Manning et al., 2008)。通常,这涉及检索文档或段落。
2.11 信息提取和文本挖掘
该研究领域的重点是从非结构化文本中提取结构化知识,并能够分析和识别数据中的模式或相关性(Hassani 等人,2020 年)。文本分类自动将文本分类到预定义的类中(Schopf 等人,2021 年),而主题建模旨在发现文档集合中的潜在主题(Grootendorst,2022 年),通常使用文本聚类技术将语义相似的文本组织到相同的集群中。摘要产生文本摘要,在更少的空间中包含输入的关键点,并将重复保持在最低限度(El-Kassas 等人,2021 年)。此外,信息提取和文本挖掘研究领域还包括命名实体识别,它涉及命名实体的识别和分类(Leitner 等人,2020 年)、共指解析,旨在识别话语中对同一实体的所有引用(Yin 等人,2021 年),术语提取,旨在提取相关术语,例如关键字或关键字短语(Rigouts Terryn 等人,2020 年),旨在提取实体之间关系的关系提取,以及促进关系元组的域独立发现的开放信息提取(Yates等人,2007 年)。
2.12 文本生成
文本生成方法的目标是生成既能被人类理解又与人类创作的文本无法区分的文本。因此,输入通常由文本组成,例如在保留语义的同时以不同的表面形式呈现文本输入的释义(Niu 等人,2021 年),旨在生成给定段落和目标答案的流畅且相关的问题生成(Song 等人,2018 年),或旨在生成与提示相关的自然文本的对话响应生成(Zhang 等人, 然而,在许多情况下,文本是作为其他模式输入的结果生成的,例如在数据到文本生成的情况下,基于结构化数据(如表格或图形)生成文本(Kale and Rastogi,2020),图像或视频的字幕,或将语音波形转录为文本的语音识别(Baevski 等人, 2020)。
三、NLP 的特点和发展
1952 年至 2022 年 ACL 选集中每年的论文数量。图片来源:作者
考虑到NLP的文献,我们从研究数量作为研究兴趣的指标开始分析。50年观察期内出版物的分布情况见上图。虽然第一批出版物出现在1952年,但年度出版物的数量增长缓慢,直到2000年。因此,在2000年至2017年期间,出版物数量大约翻了两番,而在随后的五年中,它又翻了一番。因此,我们观察到NLP研究的数量呈近乎指数级增长,表明研究界的关注日益增加。
Distribution of the number of papers by most popular fields of study from 2002 to 2022. Image by author.
通过检查上图,揭示了NLP文献中最受欢迎的研究领域及其随时间推移的最新发展。虽然NLP的大多数研究都与机器翻译或语言模型有关,但这两个研究领域的发展是不同的。机器翻译是一个经过深入研究的领域,已经建立了很长时间,并且在过去 20 年中经历了适度的增长速度。语言模型也已经研究了很长时间。然而,自2018年以来,有关该主题的出版物数量仅出现显着增长。在查看其他流行的研究领域时,可以观察到类似的差异。表示学习和文本分类虽然普遍得到广泛研究,但部分停滞不前。相比之下,对话系统和会话代理,特别是低资源NLP,在研究数量上继续表现出高增长率。根据其余研究领域平均研究数量的发展,我们观察到总体上略有正增长。然而,大多数研究领域的研究明显少于最受欢迎的研究领域。
四、自然语言处理的最新趋势
NLP研究领域的增长份额矩阵。每个研究领域的增长率和作品总数是从2018年初到2022年底计算的。图片由作者提供。
上图显示了NLP研究领域的增长份额矩阵。我们通过分析2018年至2022年间与NLP各个研究领域相关的增长率和论文总数,用它来研究当前的研究趋势和可能的未来研究方向。矩阵的右上方由表现出高增长率的研究领域组成,同时总体上有大量论文。鉴于本节中研究领域的日益普及,我们将它们归类为趋势之星。右下部分包含非常受欢迎但增长率较低的研究领域。通常,这些是NLP必不可少但已经相对成熟的研究领域。因此,我们将它们归类为基础研究领域。矩阵的左上部分包含表现出高增长率的研究领域,但总体论文很少。由于这些研究领域的进展相当有希望,但总体论文数量较少,因此难以预测其进一步发展,因此我们将它们归类为上升问号。矩阵左下角的研究领域因其论文总数低和增长率低而被归类为利基研究领域。
该图显示,语言模型目前受到的关注最多。根据该领域的最新发展,这一趋势可能会在不久的将来继续并加速。文本分类、机器翻译和表示学习是最受欢迎的研究领域之一,但仅显示出边际增长。从长远来看,它们可能会被快速增长的领域所取代,成为最受欢迎的研究领域。
一般来说,与句法文本处理相关的研究领域表现出微不足道的增长和整体的低受欢迎程度。相反,与负责任和值得信赖的NLP相关的研究领域,如绿色和可持续的NLP,低资源NLP和道德NLP,往往表现出高增长率和高受欢迎程度。这种趋势也可以在NLP中的结构化数据,NLP中的视觉数据以及NLP中的语音和音频中观察到,所有这些都与多模态有关。此外,涉及对话系统和会话代理以及问答的自然语言界面在研究界变得越来越重要。我们的结论是,除了语言模型之外,负责任和值得信赖的NLP,多模态和自然语言界面可能在不久的将来成为NLP研究领域的特征。
在推理领域,特别是在知识图谱推理和数字推理以及与文本生成相关的各个研究领域,可以观察到进一步的显着发展。尽管这些研究领域目前仍然相对较小,但它们显然吸引了越来越多的研究界的兴趣,并显示出明显的积极增长趋势。
五、结论 💡
为了总结最近的发展并提供NLP格局的概述,我们定义了研究领域的分类法并分析了最近的研究进展。
我们的研究结果表明,已经研究了大量的研究领域,包括多模态、负责任和可信赖的NLP以及自然语言界面等趋势领域。我们希望本文能对当前的NLP格局提供一个有用的概述,并可以作为对该领域进行更深入探索的起点。