NLP的不同研究领域和最新发展的概述

一、介绍

        作为理解、生成和处理自然语言文本的有效方法,自然语言处理 (NLP) 的研究近年来迅速普及并被广泛采用。鉴于NLP的快速发展,获得该领域的概述和维护它是困难的。这篇博文旨在提供NLP不同研究领域的结构化概述,并分析该领域的最新趋势。

研究领域是通常由(但不限于)任务或技术组成的学科和概念。

在本文中,我们将调查以下问题:

  • NLP中研究的不同研究领域是什么?
  • NLP研究文献的特点和发展是什么?
  • NLP未来工作的趋势和方向是什么?

        尽管NLP中的大多数研究领域都是众所周知和定义的,但目前没有常用的分类法或分类方案试图以一致和可理解的格式收集和构建这些研究领域。因此,很难对NLP研究的整个领域有一个概述。虽然会议和教科书中有NLP主题列表,但它们往往差异很大,而且通常过于宽泛或过于专业。因此,我们开发了一个分类法,涵盖了NLP中广泛的不同研究领域。尽管该分类法可能不包括所有可能的NLP概念,但它涵盖了广泛的最流行的研究领域,因此缺失的研究领域可以被视为所包含研究领域的子主题。在开发分类法时,我们发现某些较低级别的研究领域必须分配给多个较高级别的研究领域,而不仅仅是一个。因此,一些研究领域在NLP分类法中多次列出,但被分配到不同的更高级别的研究领域。最终的分类法是在与领域专家一起在迭代过程中经验开发的。

        分类法作为一个总体分类方案,其中NLP出版物可以根据至少一个包含的研究领域进行分类,即使它们不直接涉及其中一个研究领域,而只是其中的子主题。为了分析NLP的最新发展,我们训练了一个弱监督模型,根据NLP分类法对ACL选集论文进行分类。

您可以在我们的论文中阅读有关分类模型和NLP分类法开发过程的更多详细信息。

自然语言处理 (NLP) 分类法
自然语言处理分类法。 

二、NLP 的不同研究领域

        以下部分提供了上述NLP分类中包含的研究概念领域的简短解释。

2.1 综合

        多模态是指系统或方法处理不同类型或模态输入的能力(Garg 等人,2022 年)。我们区分可以处理自然语言文本以及视觉数据,语音和音频编程语言结构化数据(如表格或图形)的系统。

2.2 自然语言界面

        自然语言接口可以基于自然语言查询处理数据(Voigt 等人,2021 年),通常实现为问答或对话和对话系统

2.3 语义文本处理

        这个高级研究领域包括所有类型的概念,这些概念试图从自然语言中获取意义,并使机器能够从语义上解释文本数据。在这方面最强大的研究领域之一是试图学习单词序列的联合概率函数的语言模型(Bengio et al., 2000)。语言模型训练的最新进展使这些模型能够成功执行各种下游 NLP 任务(Soni 等人,2022 年)。在表示学习中,语义文本表示通常以嵌入的形式学习(Fu等人,2022),可用于比较语义搜索设置中文本的语义相似性(Reimers 和 Gurevych,2019)。此外,可以合并知识表示,例如以知识图的形式,以改进各种 NLP 任务(Schneider 等人,2022 年)。

2.4 情绪分析

        情感分析试图从文本中识别和提取主观信息(Wankhade 等人,2022 年)。通常,研究侧重于从文本中提取观点情感极性。最近,基于方面的情感分析作为一种提供比一般情感分析更详细信息的方法出现,因为它旨在预测文本中给定方面或实体的情感极性(Xue and Li,2018)。

2.5 句法文本处理

        这个高级研究领域旨在分析文本的语法语法和词汇(Bessmertny et al., 2016)。在这种情况下,代表性任务是句法解析句子中的单词依赖关系,将单词标记为各自的词性,将文本分割成连贯的部分,或纠正语法和拼写方面的错误文本

2.6 语言学与认知NLP

        语言学和认知NLP处理自然语言,基于我们的语言能力牢牢植根于我们的认知能力的假设,意义本质上是概念化,语法是由用法塑造的(Dabrowska和Divjak,2015)。存在许多不同的语言理论,这些理论通常认为语言习得受通用语法规则的支配,这些规则对所有正常发育的人类都是通用的(Wise and Sevcik,2017)。心理语言学试图模拟人类大脑如何获取和产生语言,处理语言,理解语言并提供反馈(Balamurugan,2018)。认知建模涉及以各种形式建模和模拟人类认知过程,尤其是以计算或数学形式(Sun,2020)。

2.7 负责任和值得信赖的NLP

        负责任和值得信赖的 NLP 关注实施以公平、可解释性、问责制和道德方面为核心的方法(Barredo Arrieta 等人,2020 年)。绿色和可持续的NLP主要关注文本处理的有效方法,而低资源NLP旨在在数据稀缺时执行NLP任务。此外,NLP 中的鲁棒性试图开发对偏差不敏感、抗数据扰动且可靠的分布外预测模型。

2.8 推理

        推理使机器能够得出逻辑结论,并根据可用的信息,使用演绎和归纳等技术得出新知识。参数挖掘自动识别并提取推理和推理的结构,这些结构表示为自然语言文本中呈现的参数(Lawrence和Reed,2019)。文本推理,通常建模为蕴涵问题,自动确定是否可以从给定的前提推断出自然语言假设(MacCartney和Manning,2007)。常识推理使用文本中未明确提供的世界知识来连接前提和假设(Ponti 等人,2020 年),而数字推理执行算术运算(Al-Negheimish 等人,2021 年)。机器阅读理解旨在教机器根据给定的段落确定问题的正确答案(Zhang 等人,2021 年)。

2.9 多语言

        多语言处理涉及多种自然语言的所有类型的NLP任务,并且通常在机器翻译中进行研究。此外,代码切换可以在单个句子内或句子之间自由交换多种语言(Diwan 等人,2021 年),而跨语言传输技术使用一种语言可用的数据和模型来解决另一种语言的 NLP 任务。

2.10 信息检索

        信息检索涉及从大型馆藏中查找满足信息需求的文本(Manning et al., 2008)。通常,这涉及检索文档段落

2.11 信息提取和文本挖掘

        该研究领域的重点是从非结构化文本中提取结构化知识,并能够分析和识别数据中的模式或相关性(Hassani 等人,2020 年)。文本分类自动将文本分类到预定义的类中(Schopf 等人,2021 年),而主题建模旨在发现文档集合中的潜在主题(Grootendorst,2022 年),通常使用文本聚类技术将语义相似的文本组织到相同的集群中。摘要产生文本摘要,在更少的空间中包含输入的关键点,并将重复保持在最低限度(El-Kassas 等人,2021 年)。此外,信息提取和文本挖掘研究领域还包括命名实体识别,它涉及命名实体的识别和分类(Leitner 等人,2020 年)、共指解析,旨在识别话语中对同一实体的所有引用(Yin 等人,2021 年),术语提取,旨在提取相关术语,例如关键字或关键字短语(Rigouts Terryn 等人,2020 年),旨在提取实体之间关系的关系提取,以及促进关系元组的域独立发现的开放信息提取(Yates等人,2007 年)。

2.12 文本生成

        文本生成方法的目标是生成既能被人类理解又与人类创作的文本无法区分的文本。因此,输入通常由文本组成,例如在保留语义的同时以不同的表面形式呈现文本输入的释义(Niu 等人,2021 年),旨在生成给定段落和目标答案的流畅且相关的问题生成(Song 等人,2018 年),或旨在生成与提示相关的自然文本的对话响应生成(Zhang 等人, 然而,在许多情况下,文本是作为其他模式输入的结果生成的,例如在数据到文本生成的情况下,基于结构化数据(如表格或图形)生成文本(Kale and Rastogi,2020),图像或视频的字幕,或将语音波形转录为文本的语音识别(Baevski 等人, 2020)。

三、NLP 的特点和发展

1952 年至 2022 年 ACL 选集中每年的论文数量。图片来源:作者

        考虑到NLP的文献,我们从研究数量作为研究兴趣的指标开始分析。50年观察期内出版物的分布情况见上图。虽然第一批出版物出现在1952年,但年度出版物的数量增长缓慢,直到2000年。因此,在2000年至2017年期间,出版物数量大约翻了两番,而在随后的五年中,它又翻了一番。因此,我们观察到NLP研究的数量呈近乎指数级增长,表明研究界的关注日益增加。

2002年至2022年按最受欢迎的研究领域划分的论文数量分布。

Distribution of the number of papers by most popular fields of study from 2002 to 2022. Image by author.

        通过检查上图,揭示了NLP文献中最受欢迎的研究领域及其随时间推移的最新发展。虽然NLP的大多数研究都与机器翻译语言模型有关,但这两个研究领域的发展是不同的。机器翻译是一个经过深入研究的领域,已经建立了很长时间,并且在过去 20 年中经历了适度的增长速度。语言模型也已经研究了很长时间。然而,自2018年以来,有关该主题的出版物数量仅出现显着增长。在查看其他流行的研究领域时,可以观察到类似的差异。表示学习文本分类虽然普遍得到广泛研究,但部分停滞不前。相比之下,对话系统和会话代理,特别是低资源NLP,在研究数量上继续表现出高增长率。根据其余研究领域平均研究数量的发展,我们观察到总体上略有正增长。然而,大多数研究领域的研究明显少于最受欢迎的研究领域。

四、自然语言处理的最新趋势

NLP研究领域的增长份额矩阵。每个研究领域的增长率和作品总数是从2018年初到2022年底计算的。

NLP研究领域的增长份额矩阵。每个研究领域的增长率和作品总数是从2018年初到2022年底计算的。图片由作者提供。

        上图显示了NLP研究领域的增长份额矩阵。我们通过分析2018年至2022年间与NLP各个研究领域相关的增长率和论文总数,用它来研究当前的研究趋势和可能的未来研究方向。矩阵的右上方由表现出高增长率的研究领域组成,同时总体上有大量论文。鉴于本节中研究领域的日益普及,我们将它们归类为趋势之星。右下部分包含非常受欢迎但增长率较低的研究领域。通常,这些是NLP必不可少但已经相对成熟的研究领域。因此,我们将它们归类为基础研究领域。矩阵的左上部分包含表现出高增长率的研究领域,但总体论文很少。由于这些研究领域的进展相当有希望,但总体论文数量较少,因此难以预测其进一步发展,因此我们将它们归类为上升问号。矩阵左下角的研究领域因其论文总数低和增长率低而被归类为利基研究领域

        该图显示,语言模型目前受到的关注最多。根据该领域的最新发展,这一趋势可能会在不久的将来继续并加速。文本分类机器翻译表示学习是最受欢迎的研究领域之一,但仅显示出边际增长。从长远来看,它们可能会被快速增长的领域所取代,成为最受欢迎的研究领域。

        一般来说,与句法文本处理相关的研究领域表现出微不足道的增长和整体的低受欢迎程度。相反,与负责任和值得信赖的NLP相关的研究领域,如绿色和可持续的NLP,低资源NLP道德NLP,往往表现出高增长率和高受欢迎程度。这种趋势也可以在NLP中的结构化数据,NLP中的视觉数据以及NLP中的语音和音频中观察到,所有这些都与多模态有关。此外,涉及对话系统和会话代理以及问答的自然语言界面在研究界变得越来越重要。我们的结论是,除了语言模型之外,负责任和值得信赖的NLP,多模态自然语言界面可能在不久的将来成为NLP研究领域的特征。

        在推理领域,特别是在知识图谱推理和数字推理以及与文本生成相关的各个研究领域,可以观察到进一步的显着发展。尽管这些研究领域目前仍然相对较小,但它们显然吸引了越来越多的研究界的兴趣,并显示出明显的积极增长趋势。

五、结论 💡

        为了总结最近的发展并提供NLP格局的概述,我们定义了研究领域的分类法并分析了最近的研究进展。

        我们的研究结果表明,已经研究了大量的研究领域,包括多模态负责任和可信赖的NLP以及自然语言界面等趋势领域。我们希望本文能对当前的NLP格局提供一个有用的概述,并可以作为对该领域进行更深入探索的起点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/145605.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python集成开发环境(IDE):WingPro for Mac

WingPro for Mac是一款Python集成开发环境(IDE)软件,它提供了一系列强大的工具和功能,帮助Python开发人员提高开发效率和质量。 WingPro for Mac拥有直观的用户界面和强大的调试器,可以帮助用户快速定位问题和修复错误…

fcntl函数 非阻塞轮询

fcntl() 在打开的文件描述符 FD 上执行下面描述的操作之一。 操作由 cmd 确定。 fcntl() 可以采用可选的第三个参数。 是否需要此参数由 cmd 确定。 所需的参数类型在后面的括号中指示。 每个cmd名称(在大多数情况下&…

MySQL学习笔记23

逻辑备份: 1、回顾什么是逻辑备份? 逻辑备份就是把数据库、数据表或者数据进行导出,导出到一个文本文件中。 2、逻辑备份工具: mysqldump:提供全库级、数据库级别以及表级别的数据备份。 mysqldumpbinlog&#xff…

【汇编的救赎】汇编语言入门必看基本知识点

汇编语言是一种低级语言,用于编写计算机程序。它直接操作计算机硬件,提供了对处理器寄存器、内存和指令等底层资源的直接访问。汇编语言的语法简单明了,每条指令都对应着一条机器指令,具有高度的灵活性和效率。通过汇编语言&#…

BUUCTF reverse wp 81 - 85

[SCTF2019]babyre 反编译失败, 有花指令 有一个无用字节, 阻止反编译, patch成0x90 所有标红的地方nop掉之后按p重申函数main和loc_C22, F5成功 int __cdecl main(int argc, const char **argv, const char **envp) {char v4; // [rspFh] [rbp-151h]int v5; // [rsp10h] [rb…

com.alibaba.csp.sentinel.slots.block.flow.FlowException: null--记录一次报错

阿丹: 记录一次开发中遇到的错误。 报错信息描述: 2023-10-01 09:47:57.263 ERROR 39572 --- [nio-9100-exec-2] o.a.c.c.C.[.[.[/].[dispatcherServlet] : Servlet.service() for servlet [dispatcherServlet] in context with path [] threw exce…

图像处理: ImageKit.NET 3.0.10704 Crack

关于 ImageKit.NET3 100% 原生 .NET 图像处理组件。 ImageKit.NET 可让您快速轻松地向 .NET 应用程序添加图像处理功能。从 TWAIN 扫描仪和数码相机检索图像;加载和保存多种格式的图像文件;对图像应用图像滤镜和变换;在显示屏、平移窗口或缩略…

jenkins联动显示或隐藏参数

1. 添加组件 Active Choices Plug-in 如jenkins无法联网,可在以下两个地址中下载插件,然后放到/home/jenkins/.jenkins/plugin下面重启jenkins即可 Active Choices Active Choices | Jenkins plugin 2. 效果如下: sharding为空时&#xf…

Linux内核存在缺陷发行陷困境

导读Linux内核已经修复了本地特权esclation缺陷,但是几个上游分发版本例如Red Hat,Canonical和Debian发行版尚未发布更新。管理员应计划减轻Linux服务器和工作站本身的漏洞,并监控其更新计划的发布。 内核缺陷仍存在 在Linux内核4.10.1(CVE-…

预编译(2)

#和## #运算符: #运算符将宏的⼀个参数转换为字符串字⾯量。它仅允许出现在带参数的宏的替换列表中。 #运算符所执⾏的操作可以理解为“字符串化”。 举例: 当我们有⼀个变量 int a 10; 的时候,我们想打印出: the value of …

Linux 基本语句_4_指针和函数

指针函数 顾名思义&#xff0c;即返回值为指针的函数 int * f (int n){int *p NULL;//空指针return p;//返回一个地址 }函数指针 指向函数的指针&#xff0c;每个函数都有自己的入口地址&#xff0c;函数指针专门指向这些地址#include <stdio.h>int max(int a, int b)…

数据挖掘(1)概述

一、数据仓库和数据挖掘概述 1.1 数据仓库的产生 数据仓库与数据挖掘&#xff1a; 数据仓库和联机分析处理技术(存储)。数据挖掘&#xff1a;在大量的数据中心挖掘感兴趣的知识、规则、规律、模式、约束(分析)。数据仓库用于决策分析&#xff1a; 数据仓库&#xff1a;是在数…

【Linux】 OpenSSH_9.3p1 升级到 OpenSSH_9.3p2(亲测无问题,建议收藏)

&#x1f468;‍&#x1f393;博主简介 &#x1f3c5;云计算领域优质创作者   &#x1f3c5;华为云开发者社区专家博主   &#x1f3c5;阿里云开发者社区专家博主 &#x1f48a;交流社区&#xff1a;运维交流社区 欢迎大家的加入&#xff01; &#x1f40b; 希望大家多多支…

[docker]笔记-网络故障处理

1、同事在虚拟机上部署docker&#xff0c;发现电脑无法登录虚拟机了。首先ping测是通的&#xff0c;从我电脑继续进行登录测试发现没问题&#xff0c;初步判断是她电脑网络和虚拟机网络之间连接出错。 2、进行虚拟机登录查看&#xff0c;首先使用route -n命令查看路由&#xf…

layui+java spring 实现图片文件新增到数据库

项目场景&#xff1a; layuijava spring 实现图片文件新增到数据库 解决方案&#xff1a; 1.首先layui是个不再更新的网址有想了解的可以浏览官网 表格组件 table - Layui 文档 2.官网内有专门的组件 代码直接粘过来即可 <!DOCTYPE html> <html> <head> …

day49 jdbc技术

一、概述 什么是JDBC Java DataBase COnnectivity Java 数据库连接 其实就是利用Java程序连接并访问数据库的一种技术 为什么要学习JDBC 之前我们是通过终端&#xff0c;或者第三方工具直接连接数据库 在企业开发中&#xff0c;更多的是通过程序来连接数据库的 未来学习的M…

JJJ:添加开机自启动项

比如我希望一个截图软件能开机自启动&#xff1a; 1、打开任务管理器&#xff1a; 进入启动栏&#xff1a; 发现没有snipaste可以设置 2、win r&#xff0c; 输入 shell:startup 然后回弹出一个新的窗口&#xff0c;把截图软件的快捷方式放里头 这样snipaste就能开机自启动…

排序篇(三)----交换排序

排序篇(三)----交换排序 1.冒泡排序 基本思想: ​ 通过不断地比较相邻的元素&#xff0c;将较大的元素往后移动&#xff0c;从而实现排序的目的。 具体的步骤如下&#xff1a; 从待排序的数组中选择相邻的两个元素进行比较&#xff0c;如果前一个元素大于后一个元素&#…

【IDEA】maven项目添加模块时,webapp没有被标识,无法识别的解决方法

问题 新添加maven项目模块后&#xff0c;webapp目录未被标识&#xff0c;即没有小蓝点的图标显示。如下图 解决方法 点击“File”下的“Project Strucure”&#xff0c;在弹出的框中&#xff0c;选中“Modules”下的项目名称&#xff0c;也就是“demo1”&#xff0c;点击“…

ASUS华硕ZenBook 13灵耀U 2代U3300F笔记本UX333FN/FA原装出厂Win10系统工厂安装模式

系统自带所有驱动、出厂主题壁纸、系统属性华硕专属LOGO标志、Office办公软件、MyASUS华硕电脑管家等预装程序 下载链接&#xff1a;https://pan.baidu.com/s/1dK0vMZMECPlT63Rb6-jeFg?pwdbym5 所需要工具&#xff1a;16G或以上的U盘(非必需) 文件格式&#xff1a;HDI,SWP,O…