自然语言处理的分类

动动发财的小手，点个赞吧！

简介

作为理解、生成和处理自然语言文本的有效方法，自然语言处理（NLP）的研究近年来呈现出快速传播和广泛采用。鉴于 NLP 的快速发展，获得该领域的概述并对其进行维护是很困难的。这篇博文旨在提供 NLP 不同研究领域的结构化概述，并分析该领域的最新趋势。

在本文^[1]中，我们研究以下问题：

NLP 研究哪些不同的研究领域？
NLP 研究文献的特点和随时间的发展是什么？
NLP目前的趋势和未来工作的方向是什么？

尽管 NLP 的大多数研究领域都是众所周知的和明确的，但目前还没有常用的分类法或分类方案试图以一致且易于理解的格式收集和构建这些研究领域。因此，了解整个 NLP 研究领域的概况是很困难的。虽然会议和教科书中列出了 NLP 主题，但它们往往差异很大，而且往往要么太宽泛，要么太专业。因此，我们开发了一个涵盖 NLP 广泛不同研究领域的分类法。尽管该分类法可能不包括所有可能的 NLP 概念，但它涵盖了广泛的最受欢迎的研究领域，因此缺失的研究领域可以被视为所包含研究领域的子主题。在制定分类法时，我们发现某些较低级别的研究领域必须分配给多个较高级别的研究领域，而不仅仅是一个。因此，一些研究领域在 NLP 分类中被多次列出，但被分配到不同的更高级别的研究领域。最终的分类法是与领域专家一起在迭代过程中凭经验开发的。

该分类法作为一种总体分类方案，其中 NLP 出版物可以根据至少一个所包含的研究领域进行分类，即使它们不直接涉及其中一个研究领域，而只是其子主题。为了分析 NLP 的最新发展，我们训练了一个弱监督模型，根据 NLP 分类法对 ACL Anthology 论文进行分类。

NLP的不同研究领域

以下部分对上述 NLP 分类法中包含的研究概念领域进行简短说明。

多模态

多模态是指系统或方法处理不同类型或模态输入的能力。我们区分可以处理自然语言文本以及视觉数据、语音和音频、编程语言或结构化数据（例如表格或图表）的系统。

自然语言接口

自然语言接口可以基于自然语言查询处理数据，通常实现为问答系统或对话系统。

语义文本处理

这一高级研究领域包括试图从自然语言中获取含义并使机器能够从语义上解释文本数据的所有类型的概念。这方面最强大的研究领域之一是尝试学习单词序列的联合概率函数的语言模型。语言模型训练的最新进展使这些模型能够成功执行各种下游 NLP 任务。在表示学习中，语义文本表示通常以嵌入的形式学习，可用于比较语义搜索设置中文本的语义相似度。此外，可以合并知识表示（例如以知识图的形式）来改进各种 NLP 任务。

情绪分析

情感分析试图从文本中识别和提取主观信息。通常，研究的重点是从文本中提取观点、情感或极性。最近，基于方面的情感分析成为一种比一般情感分析提供更详细信息的方法，因为它旨在预测文本中给定方面或实体的情感极性。

句法文本处理

这一高级研究领域旨在分析文本的语法和词汇。这种情况下的代表性任务是句子中单词依赖性的句法分析、将单词标记到各自的词性、将文本分割成连贯的部分，或者纠正语法和拼写方面的错误文本。

语言学与认知 NLP

语言学与认知 NLP 处理自然语言的基础是这样的假设：我们的语言能力牢牢植根于我们的认知能力，意义本质上是概念化，语法是由用法决定的。目前存在许多不同的语言理论，它们普遍认为语言习得受到所有典型发育人类所共有的通用语法规则的控制。心理语言学试图模拟人脑如何获取和产生语言、处理语言、理解语言并提供反馈。认知建模涉及以各种形式，特别是计算或数学形式对人类认知过程进行建模和模拟。

推理

推理使机器能够使用演绎和归纳等技术，根据可用的信息得出逻辑结论并得出新知识。论据挖掘自动识别和提取自然语言文本中表达为论据的推论和推理结构。文本推理通常被建模为蕴涵问题，自动确定是否可以从给定前提推断出自然语言假设。常识推理使用文本中未明确提供的世界知识来连接前提和假设，而数值推理则执行算术运算。机器阅读理解旨在教会机器根据给定的段落确定问题的正确答案。

多语言能力

多语言处理涉及多种自然语言的所有类型的 NLP 任务，并且通常在机器翻译中进行研究。此外，语码转换可以在单个句子内或句子之间自由交换多种语言，而跨语言迁移技术则使用一种语言可用的数据和模型来解决另一种语言的 NLP 任务。

信息检索

信息检索涉及从大型集合中查找满足信息需求的文本。通常，这涉及检索文档或段落。

信息提取与文本挖掘

该研究领域的重点是从非结构化文本中提取结构化知识，并能够分析和识别数据中的模式或相关性。文本分类自动将文本分类为预定义的类别，而主题建模旨在发现文档集合中的潜在主题，通常使用文本聚类技术将语义相似的文本组织到相同的集群中。摘要生成文本摘要，其中在更小的空间中包含输入的关键点，并将重复保持在最低限度。此外，信息提取和文本挖掘领域的研究还包括命名实体识别，处理命名实体的识别和分类，共指解析，旨在识别对同一实体的所有引用话语、术语提取，旨在提取相关术语，例如关键字或关键短语、关系提取，旨在提取实体之间的关系，以及开放信息提取，以促进关系元组的领域独立发现。

文本生成

文本生成方法的目标是生成人类可以理解且与人类创作的文本无法区分的文本。因此，输入通常由文本组成，例如在释义中，以不同的表面形式呈现文本输入，同时保留语义，问题生成旨在根据给定的段落生成流畅且相关的问题和目标答案，或对话响应生成，旨在生成与提示相关的自然外观文本。然而，在许多情况下，文本是作为其他模式输入的结果生成的，例如在数据到文本生成的情况下，基于结构化数据（例如表格或图表）生成文本、图像或视频的字幕，或将语音波形转录为文本的语音识别。

NLP的特点和发展

考虑到 NLP 方面的文献，我们从研究数量作为研究兴趣的指标开始分析。 50年观察期内的出版物分布如上图所示。虽然第一批出版物出现于 1952 年，但每年出版物的数量增长缓慢，直到 2000 年。相应地，2000 年至 2017 年间，出版物数量大约翻了两番，而在随后的五年中，又翻了一番。因此，我们观察到 NLP 研究的数量呈近指数增长，表明研究界的关注日益增加。

检查上图，揭示了 NLP 文献中最受欢迎的研究领域及其随着时间的推移的最新发展。虽然 NLP 的大多数研究都与机器翻译或语言模型有关，但这两个研究领域的发展却有所不同。机器翻译是一个经过深入研究的领域，已经建立了很长时间，并且在过去 20 年中经历了适度的增长。语言模型也被研究了很长时间。然而，自 2018 年以来，该主题的出版物数量才出现显着增长。在其他热门研究领域也可以观察到类似的差异。表征学习和文本分类虽然得到了广泛的研究，但其发展却部分停滞。相比之下，对话系统和对话代理，尤其是低资源 NLP，研究数量继续呈现高增长率。根据其余研究领域的平均研究数量的发展，我们观察到整体略有正增长。然而，大多数研究领域的研究明显少于最受欢迎的研究领域。

NLP 的最新趋势

上图展示了NLP研究领域的增长份额矩阵。我们用它来通过分析 2018 年至 2022 年间 NLP 各个研究领域相关论文的增长率和总数来考察当前的研究趋势和未来可能的研究方向。矩阵的右上部分由以下研究领域组成：总体上表现出高增长率和大量论文。鉴于本部分的研究领域越来越受欢迎，我们将它们归类为热门明星。右下部分包含非常受欢迎但增长率较低的研究领域。通常，这些是 NLP 所必需的研究领域，但已经相对成熟。因此，我们将它们归类为基础研究领域。矩阵的左上部分包含表现出高增长率但总体上论文很少的研究领域。由于这些研究领域的进展相当有前景，但总体论文数量较少，难以预测其进一步发展，因此我们将其归类为上升问号。矩阵左下角的研究领域由于论文总数低且增长率低而被归类为利基研究领域。

从图中可以看出，目前最受关注的是语言模型。根据该领域的最新发展，这一趋势可能会在不久的将来持续并加速。文本分类、机器翻译和表示学习位列最热门的研究领域之列，但仅显示出边际增长。从长远来看，它们可能会被增长更快的领域取代，成为最受欢迎的研究领域。

一般来说，与句法文本处理相关的研究领域总体上表现出可忽略不计的增长和较低的受欢迎程度。相反，与负责任和值得信赖的NLP相关的研究领域，例如绿色和可持续的NLP、低资源NLP和道德NLP，总体上往往表现出高增长率和高受欢迎程度。这种趋势也可以在 NLP 中的结构化数据、NLP 中的视觉数据以及 NLP 中的语音和音频中观察到，所有这些都与多模态有关。此外，涉及对话系统、对话代理和问答的自然语言界面在研究界变得越来越重要。我们的结论是，除了语言模型之外，负责任且值得信赖的 NLP、多模态和自然语言界面也可能成为不久的将来 NLP 研究领域的特征。

在推理领域，特别是在知识图推理和数字推理以及与文本生成相关的各个研究领域中，可以观察到进一步显着的发展。尽管这些研究领域目前还相对较小，但它们显然吸引了研究界越来越多的兴趣，并表现出明显的积极增长趋势。