自然语言处理的分类

动动发财的小手,点个赞吧!

alt

简介

作为理解、生成和处理自然语言文本的有效方法,自然语言处理(NLP)的研究近年来呈现出快速传播和广泛采用。鉴于 NLP 的快速发展,获得该领域的概述并对其进行维护是很困难的。这篇博文旨在提供 NLP 不同研究领域的结构化概述,并分析该领域的最新趋势。

本文[1]中,我们研究以下问题:

  • NLP 研究哪些不同的研究领域?
  • NLP 研究文献的特点和随时间的发展是什么?
  • NLP目前的趋势和未来工作的方向是什么?

尽管 NLP 的大多数研究领域都是众所周知的和明确的,但目前还没有常用的分类法或分类方案试图以一致且易于理解的格式收集和构建这些研究领域。因此,了解整个 NLP 研究领域的概况是很困难的。虽然会议和教科书中列出了 NLP 主题,但它们往往差异很大,而且往往要么太宽泛,要么太专业。因此,我们开发了一个涵盖 NLP 广泛不同研究领域的分类法。尽管该分类法可能不包括所有可能的 NLP 概念,但它涵盖了广泛的最受欢迎的研究领域,因此缺失的研究领域可以被视为所包含研究领域的子主题。在制定分类法时,我们发现某些较低级别的研究领域必须分配给多个较高级别的研究领域,而不仅仅是一个。因此,一些研究领域在 NLP 分类中被多次列出,但被分配到不同的更高级别的研究领域。最终的分类法是与领域专家一起在迭代过程中凭经验开发的。

该分类法作为一种总体分类方案,其中 NLP 出版物可以根据至少一个所包含的研究领域进行分类,即使它们不直接涉及其中一个研究领域,而只是其子主题。为了分析 NLP 的最新发展,我们训练了一个弱监督模型,根据 NLP 分类法对 ACL Anthology 论文进行分类。

NLP的不同研究领域

以下部分对上述 NLP 分类法中包含的研究概念领域进行简短说明。

多模态

多模态是指系统或方法处理不同类型或模态输入的能力。我们区分可以处理自然语言文本以及视觉数据、语音和音频、编程语言或结构化数据(例如表格或图表)的系统。

自然语言接口

自然语言接口可以基于自然语言查询处理数据,通常实现为问答系统或对话系统。

语义文本处理

这一高级研究领域包括试图从自然语言中获取含义并使机器能够从语义上解释文本数据的所有类型的概念。这方面最强大的研究领域之一是尝试学习单词序列的联合概率函数的语言模型。语言模型训练的最新进展使这些模型能够成功执行各种下游 NLP 任务。在表示学习中,语义文本表示通常以嵌入的形式学习,可用于比较语义搜索设置中文本的语义相似度。此外,可以合并知识表示(例如以知识图的形式)来改进各种 NLP 任务。

情绪分析

情感分析试图从文本中识别和提取主观信息。通常,研究的重点是从文本中提取观点、情感或极性。最近,基于方面的情感分析成为一种比一般情感分析提供更详细信息的方法,因为它旨在预测文本中给定方面或实体的情感极性。

句法文本处理

这一高级研究领域旨在分析文本的语法和词汇。这种情况下的代表性任务是句子中单词依赖性的句法分析、将单词标记到各自的词性、将文本分割成连贯的部分,或者纠正语法和拼写方面的错误文本。

语言学与认知 NLP

语言学与认知 NLP 处理自然语言的基础是这样的假设:我们的语言能力牢牢植根于我们的认知能力,意义本质上是概念化,语法是由用法决定的。目前存在许多不同的语言理论,它们普遍认为语言习得受到所有典型发育人类所共有的通用语法规则的控制。心理语言学试图模拟人脑如何获取和产生语言、处理语言、理解语言并提供反馈。认知建模涉及以各种形式,特别是计算或数学形式对人类认知过程进行建模和模拟。

推理

推理使机器能够使用演绎和归纳等技术,根据可用的信息得出逻辑结论并得出新知识。论据挖掘自动识别和提取自然语言文本中表达为论据的推论和推理结构。文本推理通常被建模为蕴涵问题,自动确定是否可以从给定前提推断出自然语言假设。常识推理使用文本中未明确提供的世界知识来连接前提和假设,而数值推理则执行算术运算。机器阅读理解旨在教会机器根据给定的段落确定问题的正确答案。

多语言能力

多语言处理涉及多种自然语言的所有类型的 NLP 任务,并且通常在机器翻译中进行研究。此外,语码转换可以在单个句子内或句子之间自由交换多种语言,而跨语言迁移技术则使用一种语言可用的数据和模型来解决另一种语言的 NLP 任务。

信息检索

信息检索涉及从大型集合中查找满足信息需求的文本。通常,这涉及检索文档或段落。

信息提取与文本挖掘

该研究领域的重点是从非结构化文本中提取结构化知识,并能够分析和识别数据中的模式或相关性。文本分类自动将文本分类为预定义的类别,而主题建模旨在发现文档集合中的潜在主题,通常使用文本聚类技术将语义相似的文本组织到相同的集群中。摘要生成文本摘要,其中在更小的空间中包含输入的关键点,并将重复保持在最低限度。此外,信息提取和文本挖掘领域的研究还包括命名实体识别,处理命名实体的识别和分类,共指解析,旨在识别对同一实体的所有引用话语、术语提取,旨在提取相关术语,例如关键字或关键短语、关系提取,旨在提取实体之间的关系,以及开放信息提取,以促进关系元组的领域独立发现。

文本生成

文本生成方法的目标是生成人类可以理解且与人类创作的文本无法区分的文本。因此,输入通常由文本组成,例如在释义中,以不同的表面形式呈现文本输入,同时保留语义,问题生成旨在根据给定的段落生成流畅且相关的问题和目标答案,或对话响应生成,旨在生成与提示相关的自然外观文本。然而,在许多情况下,文本是作为其他模式输入的结果生成的,例如在数据到文本生成的情况下,基于结构化数据(例如表格或图表)生成文本 、图像或视频的字幕,或将语音波形转录为文本的语音识别。

NLP的特点和发展

alt

考虑到 NLP 方面的文献,我们从研究数量作为研究兴趣的指标开始分析。 50年观察期内的出版物分布如上图所示。虽然第一批出版物出现于 1952 年,但每年出版物的数量增长缓慢,直到 2000 年。相应地,2000 年至 2017 年间,出版物数量大约翻了两番,而在随后的五年中,又翻了一番。因此,我们观察到 NLP 研究的数量呈近指数增长,表明研究界的关注日益增加。

alt

检查上图,揭示了 NLP 文献中最受欢迎的研究领域及其随着时间的推移的最新发展。虽然 NLP 的大多数研究都与机器翻译或语言模型有关,但这两个研究领域的发展却有所不同。机器翻译是一个经过深入研究的领域,已经建立了很长时间,并且在过去 20 年中经历了适度的增长。语言模型也被研究了很长时间。然而,自 2018 年以来,该主题的出版物数量才出现显着增长。在其他热门研究领域也可以观察到类似的差异。表征学习和文本分类虽然得到了广泛的研究,但其发展却部分停滞。相比之下,对话系统和对话代理,尤其是低资源 NLP,研究数量继续呈现高增长率。根据其余研究领域的平均研究数量的发展,我们观察到整体略有正增长。然而,大多数研究领域的研究明显少于最受欢迎的研究领域。

NLP 的最新趋势

alt

上图展示了NLP研究领域的增长份额矩阵。我们用它来通过分析 2018 年至 2022 年间 NLP 各个研究领域相关论文的增长率和总数来考察当前的研究趋势和未来可能的研究方向。矩阵的右上部分由以下研究领域组成:总体上表现出高增长率和大量论文。鉴于本部分的研究领域越来越受欢迎,我们将它们归类为热门明星。右下部分包含非常受欢迎但增长率较低的研究领域。通常,这些是 NLP 所必需的研究领域,但已经相对成熟。因此,我们将它们归类为基础研究领域。矩阵的左上部分包含表现出高增长率但总体上论文很少的研究领域。由于这些研究领域的进展相当有前景,但总体论文数量较少,难以预测其进一步发展,因此我们将其归类为上升问号。矩阵左下角的研究领域由于论文总数低且增长率低而被归类为利基研究领域。

从图中可以看出,目前最受关注的是语言模型。根据该领域的最新发展,这一趋势可能会在不久的将来持续并加速。文本分类、机器翻译和表示学习位列最热门的研究领域之列,但仅显示出边际增长。从长远来看,它们可能会被增长更快的领域取代,成为最受欢迎的研究领域。

一般来说,与句法文本处理相关的研究领域总体上表现出可忽略不计的增长和较低的受欢迎程度。相反,与负责任和值得信赖的NLP相关的研究领域,例如绿色和可持续的NLP、低资源NLP和道德NLP,总体上往往表现出高增长率和高受欢迎程度。这种趋势也可以在 NLP 中的结构化数据、NLP 中的视觉数据以及 NLP 中的语音和音频中观察到,所有这些都与多模态有关。此外,涉及对话系统、对话代理和问答的自然语言界面在研究界变得越来越重要。我们的结论是,除了语言模型之外,负责任且值得信赖的 NLP、多模态和自然语言界面也可能成为不久的将来 NLP 研究领域的特征。

在推理领域,特别是在知识图推理和数字推理以及与文本生成相关的各个研究领域中,可以观察到进一步显着的发展。尽管这些研究领域目前还相对较小,但它们显然吸引了研究界越来越多的兴趣,并表现出明显的积极增长趋势。

总结

为了总结最近的发展并概述 NLP 的前景,我们定义了研究领域的分类并分析了最近的研究进展。

我们的研究结果表明,已经研究了大量的研究领域,包括多模态、负责任和值得信赖的 NLP 以及自然语言界面等趋势领域。我们希望本文能够对当前 NLP 领域提供有用的概述,并可以作为更深入探索该领域的起点。

Reference

[1]

Source: https://towardsdatascience.com/a-taxonomy-of-natural-language-processing-dfc790cb4c01

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/151298.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录算法训练营第四十五天 | 1049. 最后一块石头的重量 II、494. 目标和、474.一和零

1049. 最后一块石头的重量 II 视频讲解:动态规划之背包问题,这个背包最多能装多少?LeetCode:1049.最后一块石头的重量II_哔哩哔哩_bilibili 代码随想录 (1)代码 494. 目标和 视频讲解:动态规划…

计算机竞赛 深度学习疫情社交安全距离检测算法 - python opencv cnn

文章目录 0 前言1 课题背景2 实现效果3 相关技术3.1 YOLOV43.2 基于 DeepSort 算法的行人跟踪 4 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 **基于深度学习疫情社交安全距离检测算法 ** 该项目较为新颖,适合作为竞赛…

剑指offer——JZ34 二叉树中和为某一值的路径(二) 解题思路与具体代码【C++】

一、题目描述与要求 二叉树中和为某一值的路径(二)_牛客题霸_牛客网 (nowcoder.com) 题目描述 输入一颗二叉树的根节点root和一个整数expectNumber,找出二叉树中结点值的和为expectNumber的所有路径。 1.该题路径定义为从树的根结点开始往下一直到叶子结点所经过…

Youtube视频下载工具分享-油管视频,音乐,字幕下载方法汇总

YouTube视频下载方法简介 互联网上存在很多 YouTube 下载工具,但我们经常会发现自己收藏的工具没过多久就会失效,我们为大家整理的这几种方法,是存在时间较久并且亲测可用的。后续如果这些工具失效或者有更好的工具,我们也会分享…

c++day2

1.XMIND 2. 自己封装一个矩形类(Rect),拥有私有属性:宽度(width)、高度(height),定义公有成员函数: 初始化函数:void init(int w, int h) 更改宽度的函数:set_w(int w) 更改高度的函数:set_h(int h) 输出该矩形的周长和面积函数:void show() #include &…

基于SSM的固定资产管理系统的设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

网站强制跳转至国家反诈中心该怎么办?怎么处理?如何解封?

在互联网环境中,网站安全是非常重要的。然而,在实际操作过程中,不少网站可能因内容问题、技术安全漏洞等原因被迫下线甚至跳转至国家反诈骗中心网址。面对这一严峻问题,我们如何有效解决,让网站恢复运行并解除强制跳转…

点餐小程序实战教程06-首页开发

用户注册功能开发好了之后,我们就要开发小程序,首先我们是规划小程序的功能模块,我们一共是四个模块,分别是首页、订单、消息和我的。 首页我们主要是点餐的功能,可以选择菜品,加入到购物车,然…

【C++】stack/queue/deque

目录 一、stack 1.1 stack的接口 1.2 关于使用stack的例题 1.2.1 最小栈 1.2.2 栈的压入、弹出序列 1.2.4 逆波兰表达式求值 1.3 stack的模拟实现 二、queue 2.1 queue的接口 2.2 queue的模拟实现 三、deque 3.1 deque底层实现原理 3.1.1 头插实现原理 3.1.2 尾插…

Cocos Creator3.8 项目实战(五)背景无限滚屏效果如何实现

在游戏中,我们经常会实现背景无限滚动的效果。那这些效果是怎么实现的呢? 原理很简单,就是使用多张背景图,每张图,每一帧都同时移动,当图移出屏幕外时,将其位置设置到下一张图的初始位置&#x…

加速attention计算的工业标准:flash attention 1和2算法的原理及实现

transformers目前大火,但是对于长序列来说,计算很慢,而且很耗费显存。对于transformer中的self attention计算来说,在时间复杂度上,对于每个位置,模型需要计算它与所有其他位置的相关性,这样的计…

10.8c++作业

#include <iostream>using namespace std; class Rect {int width; //宽int height; //高 public://初始化函数void init(int w,int h){widthw;heighth;}//更改宽度void set_w(int w){widthw;}//更改高度void set_h(int h){heighth;}//输出矩形周长和面积void show(){co…

【ORACLE】ORA-00972:标识符过长

问题 执行创建表结构sql&#xff0c;提示 ORA-00972&#xff1a;标识符过长&#xff1b; 如图所示&#xff0c;约束名称超过30个字符了 原因 一、11G and before 在使用11G数据库时&#xff0c;经常会遇到报错ORA-00972&#xff0c;原因是因为对象名称定义太长&#xff0c…

C++——继承

什么是继承 继承是两个类之间的关系&#xff0c;可以实现派生类&#xff08;子类&#xff09;对基类&#xff08;父类&#xff09;的复用&#xff0c;即派生类在基类的基础上进行扩展&#xff0c;实现更多功能。例如学生和人这两个对象就可以是继承关系&#xff0c;学生具有人…

基于Dockerfile搭建LNMP

目录 一、基础环境准备 1、环境前期准备 二、部署nginx&#xff08;容器IP 为 172.18.0.10&#xff09; 1、配置Dockerfile文件 2、配置nginx.conf文件 3、构建镜像、启动镜像 三、部署mysql 1、配置Dockerfile文件 2、配置my.conf文件 3、构建镜像、启动镜像 5、验…

【Linux】Vim使用总结

【Linux】Vim使用总结 Vim 的三种模式命令行模式1. 移动2.复制&#xff0c;粘贴&#xff0c;剪切3.撤销4.大小写切换&#xff0c;替换&#xff0c;删除 插入模式底行模式 Vim 的三种模式 一进入VIM就是处于一般模式&#xff08;命令模式&#xff09;&#xff0c;该模式下只能输…

flink双流join结果数据重复问题排查

1.背景 Kafka的两个topic&#xff0c;topic1 为用户下单明细记录&#xff08;包含订单基本信息&#xff09;&#xff0c;topic2为下单渠道记录&#xff08;包含下单来源和渠道内容设备相关的信息&#xff09; &#xff0c;要求实时统计每分钟内所有订单下的渠道来源分布详情。具…

使用Windows系统自带的安全加密解密文件操作步骤详解

原以为安全加密的方法是加密压缩包&#xff0c;有的需要用软件加密文件&#xff0c;可每次想往里面修改或存放文件都要先解密&#xff0c;不用时&#xff0c;还得去加密&#xff0c;操作步骤那么多&#xff0c;那多不方便呀&#xff0c;这里讲讲用系统自带的BitLocker加密工具怎…

【SQL】MySQL中的约束

1. 主键约束&#xff08;primary key&#xff09;&#xff1a; 相当于唯一约束非空约束分为单列主键&#xff0c;多列联合主键&#xff0c;一个表只有一个主键多列联合主键的每列都不能为空 2. 自增长约束&#xff08;auto_increment&#xff09;&#xff1a; 用在单列主键后…

Acwing.889 满足条件的01序列

题目 给定n个0和n个1&#xff0c;它们将按照某种顺序排成长度为2n的序列&#xff0c;求它们能排列成的所有序列中&#xff0c;能够满足任意前缀序列中0的个数都不少于1的个数的序列有多少个。 输出的答案对109&#xff0b;7取模。 输入格式 共一行&#xff0c;包含整数n。 …