【人工智能124种任务大集合】-集齐了自然语言处理(NLP),计算机视觉(CV),语音识别,多模态等任务

大家好,我是微学AI,今天给大家介绍一下人工智能124种任务大集合,任务集合主要包括4大类:自然语言处理(NLP)、计算机视觉(CV)、语音识别、多模态任务。
在这里插入图片描述

我这里整理了124种应用场景任务大集合,每个任务目录如下:

  1. 句子嵌入(Sentence Embedding):将句子映射到固定维度的向量表示形式。
  2. 文本排序(Text Ranking):对一组文本进行排序,以确定它们与给定查询的相关性。
  3. 分词(Word Segmentation):将连续的文本切分成单词或词块的过程。
  4. 词性标注(Part-of-Speech):对句子中的每个词汇标注其相应的词性。
  5. 标记分类(Token Classification):将输入的文本序列中的每个标记分类为预定义的类别。
  6. 命名实体识别(Named Entity Recognition):识别文本中具有特定意义的命名实体,如人名、地点、组织等。
  7. 关系抽取(Relation Extraction):从文本中抽取出实体之间的关系或联系。
  8. 信息抽取(Information Extraction):从非结构化文本中提取结构化的信息,如实体、关系和属性等。
  9. 句子相似度(Sentence Similarity):衡量两个句子之间的语义相似度或相关性。
  10. 文本翻译(Translation):将一种语言的文本转换为另一种语言的过程。
  11. 自然语言推理(NLI:Natural Language Inference):判断给定的前提和假设之间的逻辑关系,包括蕴含、矛盾和中立等。
  12. 情感分类(Sentiment Classification):将文本分为积极、消极或中性等情感类别。
  13. 人像抠图(Portrait Matting):从图像中准确地分离人物主体与背景。
  14. 通用抠图(Universal Matting):从图像中准确地分离目标物体与背景,不限于人像。
  15. 人体检测(Human Detection):检测图像或视频中的人体位置。
  16. 图像目标检测(Image Object Detection):在图像中检测和定位多个目标对象。
  17. 图像去噪(Image Denoising):降低图像中的噪声水平,改善图像质量。
  18. 图像去模糊(Image Deblurring):恢复模糊图像的清晰度和细节。
  19. 视频稳定化(Video Stabilization):对视频进行抖动校正,使其稳定且平滑。
  20. 视频超分辨率(Video Super-Resolution):通过增加视频的像素级别细节来提高其分辨率。
  21. 文本分类(Text Classification):将文本分类为预定义的类别或标签。
  22. 文本生成(Text Generation):根据给定输入生成连续文本的过程。
  23. 零样本分类(Zero-Shot Classification):将数据分类为模型从未在训练阶段见过的类别。
  24. 任务导向对话(Task-Oriented Conversation):进行与特定任务相关的对话和问答。
  25. 对话状态跟踪(Dialog State Tracking):跟踪多轮对话中的用户意图和系统状态的变化。
  26. 表格问答(Table Question Answering):根据表格数据回答相关问题。
  27. 文档导向对话生成(Document-Grounded Dialog Generation):基于文档内容生成相关对话回复。
  28. 文档导向对话重新排序(Document-Grounded Dialog Rerank):对生成的对话回复进行排序,以选择最佳回复。
  29. 文档导向对话检索(Document-Grounded Dialog Retrieval):从候选对话中检索与文档相关的最佳对话。
  30. 文本纠错(Text Error Correction):自动纠正文本中的拼写错误或语法错误。
  31. 图像字幕生成(Image Captioning):根据图像内容生成对图像的描述性文字。
  32. 视频字幕生成(Video Captioning):根据视频内容生成对视频的描述性文字。
  33. 图像人像风格化(Image Portrait Stylization):将图像中的人物主体应用艺术风格转换。
  34. 光学字符识别(OCR Detection):从图像中检测和识别文字。
  35. 表格识别(Table Recognition):从图像中自动识别表格结构和内容。
  36. 无线表格识别(Lineless Table Recognition):从无线表格图像中自动识别表格结构和内容。
  37. 文档视觉语义嵌入(Document-VL Embedding):将文档映射到视觉语义空间的向量表示形式。
  38. 车牌检测(License Plate Detection):在图像中检测和定位车辆的车牌区域。
  39. 填充掩码(Fill-Mask):根据上下文和部分信息填充给定的掩码。
  40. 特征提取(Feature Extraction):从输入数据中提取有意义的特征表示。
  41. 动作识别(Action Recognition):识别视频中的动作或行为。
  42. 动作检测(Action Detection):在视频中检测和定位特定动作或行为。
  43. 直播分类(Live Category):对直播视频进行分类,如体育、新闻、游戏等。
  44. 视频分类(Video Category):对视频进行分类,如电影、音乐、体育等。
  45. 多模态嵌入(Multi-Modal Embedding):将多种不同模态的数据映射到共享的向量空间。
  46. 生成式多模态嵌入(Generative Multi-Modal Embedding):将多模态数据映射到向量表示,并且能够生成与之相关的数据。
  47. 多模态相似度(Multi-Modal Similarity):衡量多模态数据(例如图像和文本)之间的相似性或相关性。
  48. 视觉问答(Visual Question Answering):根据给定的图像和问题回答相关问题。
  49. 视频问答(Video Question Answering):根据给定的视频和问题回答相关问题。
  50. 视频嵌入(Video Embedding):将视频序列映射到固定维度的向量表示形式。
  51. 文本到图像合成(Text-to-Image Synthesis):根据给定的文本描述合成相应的图像。
  52. 文本到视频合成(Text-to-Video Synthesis):根据给定的文本描述合成相应的视频。
  53. 人体二维关键点(Body 2D Keypoints):检测和跟踪图像中的人体关键点。
  54. 人体三维关键点(Body 3D Keypoints):在三维空间中检测和跟踪人体关键点。
  55. 手部二维关键点(Hand 2D Keypoints):检测和跟踪图像中的手部关键点。
  56. 卡片检测(Card Detection):在图像中检测和定位特定类型的卡片。
  57. 内容检查(Content Check):检查文本或图像中是否存在不良、敏感或违法内容。
  58. 人脸检测(Face Detection):检测图像或视频中的人脸位置。
  59. 人脸活体检测(Face Liveness):判断图像或视频中的人脸是否为真实的活体,而非照片或视频。
  60. 人脸识别(Face Recognition):识别图像或视频中的人脸,并将其与已知的身份进行匹配。
  61. 面部表情识别(Facial Expression Recognition):识别图像或视频中人脸的表情状态,如快乐、悲伤、愤怒等。
  62. 面部属性识别(Face Attribute Recognition):识别图像或视频中人脸的属性,如年龄、性别、种族等。
  63. 面部二维关键点(Face 2D Keypoints):检测和跟踪图像中的面部关键点。
  64. 面部质量评估(Face Quality Assessment):评估图像或视频中人脸图像的质量。
  65. 视频多模态嵌入(Video Multi-Modal Embedding):将多模态数据(如图像和文本)映射到共享的向量空间。
  66. 图像色彩增强(Image Color Enhancement):增强图像的色彩饱和度、对比度和亮度等。
  67. 虚拟试衣(Virtual Try-On):通过计算机生成的技术,将虚拟服装应用到真实人体图像上,以实现在线试穿效果。
  68. 图像上色(Image Colorization):将灰度图像恢复为彩色图像的过程。
  69. 视频上色(Video Colorization):将黑白视频恢复为彩色视频的过程。
  70. 图像分割(Image Segmentation):将图像分成多个不同的区域或对象。
  71. 图像驾驶感知(Image Driving Perception):利用计算机视觉技术提取图像中与驾驶相关的信息,如车道线、交通标志等。
  72. 图像深度估计(Image Depth Estimation):根据单目或双目图像估计场景中物体的深度或距离。
  73. 室内布局估计(Indoor Layout Estimation):根据室内图像估计房间的布局结构。
  74. 视频深度估计(Video Depth Estimation):根据视频中的帧间信息估计场景中物体的深度或距离。
  75. 全景深度估计(Panorama Depth Estimation):在全景图像中估计场景中物体的深度或距离。
  76. 图像风格迁移(Image Style Transfer):将一个图像的风格应用到另一个图像上,以生成具有新风格的图像。
  77. 面部图像生成(Face Image Generation):生成逼真的面部图像,可以用于人脸数据增强、数据生成等应用。
  78. 图像超分辨率(Image Super-Resolution):通过增加图像的像素级细节来提高其分辨率。
  79. 图像去块效应(Image Debanding):减少图像中由压缩引起的块状伪影或条纹噪声。
  80. 图像人像增强(Image Portrait Enhancement):改善图像中人物主体的外观、肤色等特征。
  81. 商品检索嵌入(Product Retrieval Embedding):将商品映射到向量表示形式,以支持商品相关性检索。
  82. 图像到图像生成(Image-to-Image Generation):根据给定的输入图像生成相应的输出图像。
  83. 图像分类(Image Classification):将图像分类为预定义的类别或标签。
  84. 光学字符识别(OCR Recognition):从图像中检测和识别印刷体或手写体的文字。
  85. 美肤(Skin Retouching):对人脸图像进行美化处理,去除皮肤瑕疵、磨皮等。
  86. 常见问题解答(FAQ Question Answering):根据常见问题回答用户的提问。
  87. 人群计数(Crowd Counting):根据图像或视频中的人群密度估计人数。
  88. 视频单目标跟踪(Video Single Object Tracking):在视频序列中跟踪单个目标对象。
  89. 图像人物再识别(Image ReID - Person):根据图像中的人物外观特征进行身份再识别。
  90. 文本驱动分割(Text-Driven Segmentation):根据给定的文本描述,对图像或视频中的对象进行分割。
  91. 电影场景分割(Movie Scene Segmentation):将电影或视频分割为不同的场景,每个场景代表一个独立的情节或事件。
  92. 商店分割(Shop Segmentation):将商店内的物体或区域从图像或视频中分割出来,用于商品展示、智能监控等应用。
  93. 图像修复(Image Inpainting):根据已有的图像内容,填补缺失或损坏的部分,恢复原始图像的完整性。
  94. 图像按范例绘制(Image Paint-By-Example):根据给定的范例图像,将其他图像修改为具有相似绘画风格或效果的图像。
  95. 可控图像生成(Controllable Image Generation):通过控制输入参数或向量,生成具有特定属性、风格或特征的图像。
  96. 视频修复(Video Inpainting):根据已有的视频内容,填补缺失或损坏的帧或区域,恢复原始视频的完整性。
  97. 视频人像抠像(Video Human Matting):将视频中的人物从背景中分割出来,以便进行后续的编辑或特效处理。
  98. 人体重建(Human Reconstruction):基于给定的图像、视频或传感器数据,重建人体的三维模型或姿态信息。
  99. 视频帧插值(Video Frame Interpolation):对给定的两个视频帧之间的帧进行生成,以增加视频的帧率或平滑过渡。
  100. 视频去隔行(Video Deinterlace):将隔行扫描的视频转换为逐行扫描,提高视频播放的质量和流畅度。
  101. 全身人体关键点检测(Human Wholebody Keypoint Detection):在图像或视频中检测和定位人体的关键点,例如头部、手、脚等。
  102. 静态手势识别(Hand Static):通过分析手掌形状、手指姿势等信息,识别图像或视频中的静态手势。
  103. 人脸、人体和手部检测(Face-Human-Hand Detection):检测和定位图像或视频中的人脸、人体和手部区域。
  104. 人脸情绪分析(Face Emotion):通过分析人脸表情,判断图像或视频中人脸所表达的情绪状态。
  105. 商品分割(Product Segmentation):将图像或视频中的商品或产品从背景中分割出来,用于商品识别、广告推荐等应用。
  106. 参考视频对象分割(Referring Video Object Segmentation):根据给定的参考图像或视频,对图像或视频中的对象进行分割。
  107. 视频摘要(Video Summarization):根据视频的内容和特征,生成视频的摘要或概览,提供视频浏览和检索的便利性。
  108. 图像天空变换(Image Sky Change):将图像中的天空部分替换为不同的天空背景,改变图像的氛围和环境。
  109. 翻译评估(Translation Evaluation):根据给定的翻译结果,评估其质量、准确性以及与原文的一致性。
  110. 视频对象分割(Video Object Segmentation):将视频中的对象从背景中分割出来,以便进行后续的编辑或特效处理。
  111. 视频多目标跟踪(Video Multi-Object Tracking):在视频中同时跟踪多个移动目标,实时定位和追踪目标的位置。
  112. 多视角深度估计(Multi-View Depth Estimation):通过多个视图或图像,估计场景中物体的三维深度信息。
  113. 少样本检测(Few-Shot Detection):在只有少量标注样本的情况下,进行目标检测任务,提高模型的泛化能力。
  114. 人体形状重塑(Body Reshaping):根据图像或视频中的人体区域,调整人体的形状、姿态或比例,改变人体外貌。
  115. 人脸融合(Face Fusion):将一个人的面部特征或表情融合到另一个人的头像上,生成具有两者特点的合成图像。
  116. 图像匹配(Image Matching):在图像库或数据库中,找到与给定图像最相似或匹配的图像。
  117. 图像质量评估 - 主观评分(Image Quality Assessment - MOS):通过主观评分的方法,评估图像的质量,反映人眼对图像的感知。
  118. 图像质量评估 - 降质度量(Image Quality Assessment - Degradation):通过客观度量的方法,评估图像在不同变换或压缩条件下的质量。
  119. 视觉高效调优(Vision Efficient Tuning):通过自动化的方法,快速调优和优化视觉模型和算法,提升计算效率和准确性。
  120. 三维目标检测(Object Detection 3D):在三维空间中,检测和定位目标物体的位置、尺寸和姿态。
  121. 坏图像检测(Bad Image Detecting):识别和检测出图像中存在的噪点、模糊、失真等不良或低质量的图像。
  122. Nerf重建精度评估(NeRF Reconstruction Accuracy):评估神经辐射场(NeRF)模型在建立3D场景重建时的准确性和质量。
  123. Siamese UIE:Siamese网络用于UIE任务,即输入用户界面元素识别或生成的相关问题。
  124. 数学公式识别(LatexOCR):图片中数学公式的latex识别。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/93384.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云安全攻防(十二)之 手动搭建 K8S 环境搭建

手动搭建 K8S 环境搭建 首先前期我们准备好三台 Centos7 机器,配置如下: 主机名IP系统版本k8s-master192.168.41.141Centos7k8s-node1192.168.41.142Centos7k8s-node2192.168.41.143Centos7 前期准备 首先在三台机器上都执行如下的命令 # 关闭防火墙…

【笔试题心得】物理内存和虚拟内存的区别和联系

物理内存和虚拟内存指的是什么——区别 物理内存: 定义: 物理内存是计算机实际存在的硬件内存,是CPU和其他硬件设备可以直接访问的存储空间。大小限制: 物理内存的大小是有限的,取决于计算机硬件的配置,通…

R-Meta分析与【文献计量分析、贝叶斯、机器学习等】多技术融合

Meta分析是针对某一科研问题,根据明确的搜索策略、选择筛选文献标准、采用严格的评价方法,对来源不同的研究成果进行收集、合并及定量统计分析的方法,最早出现于“循证医学”,现已广泛应用于农林生态,资源环境等方面。…

导读-Linux简介

Linux简介 ​ 总所周知,计算机系统包含硬件和软件两部分。硬件部分被称为裸机,主要包括中央处理器(CPU)、内存、外存和各种外部设备。软件部分主要包括系统软件和应用软件两部分。系统软件包括操作系统、汇编语言、编译程序、数据…

docker compose部署zookeeper

单机部署 新建docker-compose.yaml version: 3 services:zookeeper:image: zookeeper:3.5.7container_name: base-zookeeperhostname: zookeeperprivileged: truerestart: alwaysports:- 2181:2181environment:TZ: "Asia/Shanghai"volumes:- ./volumes/zookeeper/d…

蓝牙资讯|2023年Q2蓝牙耳机市场报告发布,苹果依然占据第一

市场调查机构 Canalys 发布最新报告,2023 年第二季度全球个人智能音频设备(包括 TWS, 无线头戴,无线颈挂)下滑了 2%,出货量达到 9568 万部,基本追平去年同期。其中,真无线耳机(TWS&a…

Java语言怎么输出有颜色的字符串呢?

在Java中,我们应该如何输出有颜色的文字字符串呢? 目录 一、使用方法 二、举例说明 三、常见的颜色及其对应的ANSI转义序列 一、使用方法 在Java中,可以使用ANSI转义序列来改变输出文本的颜色。 二、举例说明 (1&#xff…

Android UI自动化测试框架—SoloPi简介

1、UI自动化测试简介 软件测试简介 ​软件测试是伴随着软件开发一同诞生的,随着软件规模大型化,结构复杂化,软件测试也从最初的简单“调试”,发展到当今的自动化测试。 ​ 自动化测试是什么呢?自动化测试是把以人为…

Docker部署rabbitmq遇到的问题 Stats in management UI are disabled on this node

1. Stats in management UI are disabled on this node #进入rabbitmq容器 docker exec -it {rabbitmq容器名称或者id} /bin/bash#进入容器后,cd到以下路径 cd /etc/rabbitmq/conf.d/#修改 management_agent.disable_metrics_collector false echo management_age…

【iMessage苹果推?IM推送】群控脚本当Apple APNS推送服务器从您的应用程序接吸收注册消息时,它将为您回到一串devicetoken

推荐内容IMESSGAE相关 作者✈️IMEAE推荐内容iMessage苹果推软件 *** 点击即可查看作者要求内容信息作者✈️IMEAE推荐内容1.家庭推内容 *** 点击即可查看作者要求内容信息作者✈️IMEAE推荐内容2.相册推 *** 点击即可查看作者要求内容信息作者✈️IMEAE推荐内容3.日历推 *** …

设计模式之享元模式(Flyweight)的C++代码实现

1、享元模式提出 面向对象很好地解决了抽象问题,但是创建对象会带来一定的内存开销。绝大部分情况下,创建对象带来的内存开销是可以忽略不计的;在有些情况下是需要谨慎处理的,如类A的sizeof是50个字节,则创建50*1024*…

CSS实现左侧固定,右侧自适应(5种方法)

<div class"father"><!-- 左右div不能调换顺序来写 --><div class"left">固定宽度区</div><div class"right">自适应区</div> </div> 一、利用左侧浮动float右侧margin-left /* 利用浮动floatmargin…

2023年第四届全国人工智能大赛初赛晋级复赛名单公示

由深圳市科技创新委员会、鹏城实验室共同主办&#xff0c;新一代人工智能产业技术创新战略联盟&#xff08;AITISA&#xff09;承办&#xff0c;华为技术有限公司、中国工商银行股份有限公司深圳市分行、中国农业银行股份有限公司深圳市分行、中国建设银行股份有限公司深圳市分…

集合(map+set)

【数据结构1-3】集合 - 题单 - 洛谷 例题 P1551 亲戚 亲戚 - 洛谷 并查集 #include<bits/stdc.h> using namespace std; int n,m,q,f[10010],x,y,a,b; int find(int x)//找出x家的大佬 也就是二叉树的祖先节点 {if(f[x]x)//x是x的爸爸&#xff0c;简单的来说就是x没爸…

Apache JMeter:完全指南

Apache JMeter 是一款开源的性能测试工具&#xff0c;可以用于测试 Web 应用程序、FTP 服务器、数据库等各种类型的服务器。本文将以 JMeter 5.5 为例介绍 JMeter 的使用方法。 下载和安装 由于 JMeter 是使用 Java 开发的&#xff0c;因此在运行之前必须先安装 JDK。您可以在…

解读2023年上半年财报:净利润达11.08亿元,东鹏做对了什么?

“累了、困了&#xff0c;喝东鹏特饮”&#xff0c;这句朗朗上口的广告词是很多人对于功能性饮料的第一印象。而这句经典广告词背后的公司便是如今发展如日中天的东鹏饮料。近些年&#xff0c;东鹏饮料凭借快准狠的营销、推广打法&#xff0c;迅速在功能性饮料市场攻城略地&…

PS实现多个图片转化GIF动画

PS实现多个图片转化为GIF动画步骤 一、导入图片素材1.打开PS软件&#xff0c;点击 [文件] --- [脚本] ---[将文件载入堆栈]2.选择图片3.导入成功 二、打开时间轴1.点击[窗口]---[时间轴]2.选择创建帧动画3.创建帧动画 三、创建动画1.复制帧。2.设置帧的内容。3.修改图片停留的时…

Streamlit 讲解专栏(九):深入探索布局和容器

文章目录 1 前言2 st.sidebar - 在侧边栏增添交互元素2.1 将交互元素添加至侧边栏2.2 示例&#xff1a;在侧边栏添加选择框和单选按钮2.3 特殊元素的注意事项 3 st.columns - 并排布局多元素容器3.1 插入并排布局的容器3.2 嵌套限制 4 st.tabs - 以选项卡形式布局多元素容器4.1…

使用腾讯云轻量服务器Matomo应用模板建网站流量统计系统

腾讯云百科分享使用腾讯云轻量应用服务器Matomo应用模板搭建网站流量统计系统&#xff0c;Matomo 是一款开源的网站数据统计软件&#xff0c;可以用于跟踪、分析您的网站的流量&#xff0c;同时充分保障数据安全性、隐私性。该镜像基于 CentOS 7.6 64位操作系统&#xff0c;已预…

【C++】一文带你初识C++继承

食用指南&#xff1a;本文在有C基础的情况下食用更佳 &#x1f340;本文前置知识&#xff1a; C类 ♈️今日夜电波&#xff1a;napori—Vaundy 1:21 ━━━━━━️&#x1f49f;──────── 3:23 …