YOLO-World:Real-Time Open-Vocabulary Object Detection

目录

摘要

Abstract

YOLO-World

1 模型架构

1.1 Text Encoder

1.2 YOLO Backbone

2 RepVL-PAN

2.1 T-CSPLayer

2.2 I-Pooling Attention

2.3 预测

3 消融实验

3.1 预训练数据

3.2 RepVL-PAN的消融实验

3.3 文本编码器

4 效果展示

4.1 零样本

4.2 根据词汇表检测

4.3 根据参考对象检测

总结


摘要

YOLO-World通过视觉-语言建模,以及在大规模数据集上的预训练,增强了YOLO-World的开放词汇检测能力,展现出强大的零镜头能力。YOLO-World遵循标准的YOLO架构,并利用预训练的CLIP文本编码器来编码输入文本。该模型提出了可重参数化视觉-语言路径聚合网络(RepVL-PAN),以连接文本特征和图像特征,实现更好的视觉语义表示。该模型在LVIS数据集上以52.0FPS达到35.4AP,在准确性和速度方面都超过了许多最先进的方法。

Abstract

YOLO-World enhances YOLO-World's open-vocabulary detection capabilities through vision-language modeling and pre-training on large-scale datasets, demonstrating strong zero-shot capabilities. YOLO-World adheres to the standard YOLO architecture and utilizes the pre-trained CLIP text encoder to encode input text. The model introduces the Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) to connect text features and image features for better visual-semantic representation. Achieving 35.4 AP at 52.0 FPS on the LVIS dataset, it surpasses many state-of-the-art methods in terms of both accuracy and speed.

YOLO-World

论文链接:arxiv.org/pdf/2401.17270

开源代码地址:YOLO-World

1 模型架构

YOLO-World是由文本编码器、YOLO检测器(YOLOv8骨干网络)和RepVL-PAN组成。整体架构如下图所示:

1.1 Text Encoder

文本编码器采用的是CLIP,给定文本输入Text Encoder将文本编码T转换为文本嵌入W,CLIP文本编码器能够将视觉对象与文本连接起来,提供更好的视觉语义功能。

W=TextEncoder(T)

如上图架构图中输入文本是一个完整句子时,采用n-gram算法提取名词短语后,再将其送入文本编码器。

n-gram算法:将文本拆分成若干个连续的n个词的序列,并统计这些序列在文本中出现的频率。

例如:A man and a woman are skiing with a dog.

  • 1-gram是单个词,如“man”、“woman”等;
  • 2-gram是相邻的两个词组成的词组,如“a man”、“a woman”等;

1.2 YOLO Backbone

YOLO-World采用的是YOLOv8的骨干网络,YOLOv8网络结构图如下所示:

上图红色框部分主要用于多尺度特征提取, 蓝色框部分就是YOLO-World架构图中Multi-scale Image Features多尺度特征输入部分,我们假设YOLO-World中特征输入也是 20x20x512 、40x40x512 、 80x80x512 ,如下图所示:

2 RepVL-PAN

了解了YOLO-World的全部输入之后,我们来看看该模型最重要的模块是如何跨模态融合文本和图像特征的。RepVL-PAN结构图如下所示:

C_{5}C_{4}C_{3}就是上面假设的多尺度特征输入 20x20x512 、40x40x512 、 80x80x512 。通过T-CSPLayer使图像特征将文本特征融合;再通过I-Pooling Attention使文本特征又带有图像特征;反复这两个步骤,最后输出的P_{5}P_{4}P_{3}和文本嵌入都带有相互的信息。

2.1 T-CSPLayer

该模块会先将输入的图像特征在通道维度上做一个切分,例如 40x40x512 分为两个 40x40x256 。其中一个 40x40x256 的图像特征会先经过Dark Bottleneck做两个卷积操作,再经过Max-Sigmoid注意力更新图像上与需要预测目标最相关的区域的权重值。最后,再与另一个 40x40x256 的图像特征进行Concat,这样图像特征就融合了文本特征的信息。

Max-Sigmoid:

X_{l}^{'}=X_{l}\cdot \delta (max(X_{l}W_{j}^{T}))^{T}j\epsilon \left \{ 1...C \right \}

将文本特征融合到图像特征中,X_{l}^{'}作为跨模态连接的输出。图像对目标区域的权重值增大,对最后预测结果有重大影响。

2.2 I-Pooling Attention

在完成文本信息的融合之后,输出的X_{5}^{'}X_{4}^{'}X_{3}^{'}带有文本特征信息,再通过I-Pooling Attention模块更新文本嵌入使其带有图像特征。

首先I-Pooling Attention模块会将输入的X_{5}^{'}X_{4}^{'}X_{3}^{'} 3 个尺度的图像特征进行自适应池化为 3x3 的特征图像,然后拼接为 1x27x512 的块特征。再与文本嵌入 1x3x512 进行多头自注意力技术,以更新文本特征,使其带有图像信息。

W^{'}=W+MultiHeaf-Attention(W,\tilde{X},\tilde{X})

\tilde{X}\epsilon R^{27xD},将所有多尺度特征图像展开为27个区域,D为通道数。

因为博客开头提到有3个检测目标:man、woman、dog。假设通道数量为512,便于我们举例说明。 

通过上述步骤,最终输出的P_{5}P_{4}P_{3}拥有文本信息,同时文本嵌入也带有图像特征。

2.3 预测

在输出的P_{5}P_{4}P_{3}后接YOLO Head预测头,输出在图像上的预测框。因为在模型训练时,并没有像传统的对象检测方法那样使用边界框和类别组成的实例注释进行训练,所以YOLO-World与输入文本特征进行对比分类。

因为输出的P_{5}P_{4}P_{3}都带有文本特征,将其传入Text Contrastive Haed模块会得到每个预测框的Object Embedding。将此Embedding与输入文本的Image-aware Embedding进行匹配,即架构图中Region-Text Matching部分,选择匹配度最高的作为该预测框的类别。如下图所示:

3 消融实验

3.1 预训练数据

如上表,作者评估了使用不同数据预训练YOLO-World的性能。与在Objects365上训练的基线相比,添加GQA可以显著提高性能,在LVIS上获得了8.4 AP的增益。这种改进可以归因于GQA数据集提供的更丰富的文本信息,这可以增强模型识别大词汇量对象的能力。添加部分CC3M样本可以进一步带来0.5 AP的增益,以及在稀有对象上获得1.3 AP。上表表明,添加更多数据可以有效地提高在大词汇量场景中的检测能力。此外,随着数据量的增加,性能持续提高,突出了利用更大更多样化的数据集进行训练的好处。

3.2 RepVL-PAN的消融实验

上表展示了YOLO-World提出的RepVL-PAN的有效性,包括文本引导的CSPLayers和图像池化注意力,用于零样本LVIS检测。

作者采用了两种设置:

  • 在O365上预训练和
  • 在O365和GQA上预训练。

与仅包含类别注释的O365相比,GQA包含了丰富的文本,特别是名词短语的形式。如上表所示,提出的RepVL-PAN将YOLOv8-PAN在LVIS上提高了1.1 AP,并且在LVIS的稀有类别AP_{r}方面改进显著,这些类别难以检测和识别。此外,当YOLO-World使用GQA数据集进行预训练时,改进变得更加显著,实验表明提出的RepVL-PAN在丰富的文本信息下工作得更好。

3.3 文本编码器

上表中比较了使用不同文本编码器的性能,即BERT-base和CLIP-base。作者在预训练期间利用两种设置,即冻结和微调,微调文本编码器的学习率是基础学习率的0.01倍。

上表所示,CLIP文本编码器比BERT在LVIS的稀有类别上获得了更好的结果,因为这是用图像-文本对预训练的,具有更好的视觉中心嵌入能力。在预训练期间微调BERT带来了显著的改进(+3.7 AP),而微调CLIP导致了严重的性能下降。作者将这种下降归因于在O365上微调可能会降低预训练CLIP的泛化能力,O365仅包含365个类别,缺乏丰富的文本信息。

4 效果展示

4.1 零样本

4.2 根据词汇表检测

4.3 根据参考对象检测

总结

YOLO-World是一个实时开放词汇检测器,提高了实际应用中的效率和开放词汇能力。该论文将流行的YOLOs重塑为一种视觉语言YOLO架构,用于开放词汇预训练和检测,并提出了RepVL-PAN,它将视觉和语言信息与网络连接,并可以重参数化以实现高效部署。并且进一步提出了有效的预训练方案,结合检测、基础和图像-文本数据,赋予YOLO-World强大的开放词汇检测能力。实验证明YOLO-World在速度和开放词汇性能方面的优越性,并表明视觉-语言预训练对小型模型的有效性,这对未来的研究方向具有启发性。

论文核心部分:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/493914.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL -- 库的相关操作

目录 查看数据库 创建数据库 直接创建: 加约束条件 if not exists 字符集和校对规则 什么是字符集 什么是校对规则 校对规则的主要功能 校对规则的特性 查看指定的数据库使用的字符集和校对规则: 比较是否区分大小写字母差异 显示创建语句 …

【spring-cloud-gateway总结】

文章目录 什么是gateway如何导入gateway依赖路由配置gateway配置断路器导包配置 什么是gateway 在微服务架构中,gateway网关是一个服务,它作为系统的唯一入口点,处理所有的客户端请求,然后将这些请求路由到适当的服务。提供了几个…

mac iterm2 使用 lrzsz

前言 mac os 终端不支持使用 rz sz 上传下载文件,本文提供解决方法。 mac 上安装 brew install lrzsz两个脚本 注意:/usr/local/bin/iterm2-send-zmodem.sh 中的 sz命令路径要和你mac 上 sz 命令路径一致。 /usr/local/bin/iterm2-recv-zmodem.sh 中…

数智化医院分布式计算框架融合人工智能方向初步实现与能力转换浅析

人工智能中心计算机 一、引言 1.1 研究背景与意义 近年来,人工智能(Artificial Intelligence,AI)与大数据技术的迅猛发展为医疗行业带来了前所未有的变革机遇。医疗领域积累了海量的数据,如电子病历(Elec…

airflow docker 安装

mkdir -p /root/airflow cd /root/airflow && mkdir -p ./dags ./logs ./plugins ./configcd /root/airflow/ wget https://airflow.apache.org/docs/apache-airflow/2.10.4/docker-compose.yaml nano docker-compose.yamlAIRFLOW__CORE__LOAD_EXAMPLES: false #初始化…

【数据安全】如何保证其安全

数据安全风险 数字经济时代,数据已成为重要的生产要素。智慧城市、智慧政务的建设,正以数据为核心,推动城市管理的智能化和公共服务的优化。然而,公共数据开放共享与隐私保护之间的矛盾日益凸显,如何在确保数据安全的…

springboot463学生信息管理系统论文(论文+源码)_kaic

摘 要 使用旧方法对学生信息管理系统的信息进行系统化管理已经不再让人们信赖了,把现在的网络信息技术运用在学生信息管理系统的管理上面可以解决许多信息管理上面的难题,比如处理数据时间很长,数据存在错误不能及时纠正等问题。这次开发的学…

postman读取文件执行

要从文件获取的变量 text 在pre-request 中写从文件获取数据的脚本。脚本实现了,设置了text默认值,从文件读取text列,将text存入环境变量 //获取text参数 var text "济南天气"; if(data.text){ text data.text } pm.environment.…

我的个人博客正式上线了!

我的个人博客终于上线啦点此访问 经过一番折腾,我的个人博客终于上线啦!这是一个属于我自己的小天地,可以用来记录生活点滴、技术分享以及一些随想。 在这里,我想分享一下搭建博客的整个过程和心得体会。 为什么要搭建博客&…

摩尔信使MThings的逻辑控制功能范例

数值自增控制 数值自增/自减控制流程可广泛应用于生产线控制、工业机器人轨迹跟踪、输送带速度调整、空间环境模拟、炼油厂加热炉温度控制、啤酒和制药发酵过程控制、造纸机水分和基重控制以及多回路瞬态热流跟踪控制等多个领域,通过精确调整和优化关键参数&#xf…

高效处理PDF文件的终极工具:构建一个多功能PDF转换器

在日常工作中,处理PDF文件几乎是每个人都不可避免的任务。无论是从PDF中提取数据、合并多个PDF文件,还是处理文件中的敏感信息和图像,PDF文件的处理都可能成为繁琐且耗时的工作。如果你是数据分析师、工程师,或者从事文档管理的工…

ROS1入门教程3:自定义消息

一、新建项目 # 创建工作空间 mkdir -p demo3/src# 创建功能包 catkin_create_pkg demo roscpp rosmsg message_generation# 打开功能包 cd src/demo 二、创建自定义消息 # 创建消息目录 mkdir msg# 打开消息目录 cd msg# 创建消息文件 vim User.msg# 定义消息字段 string n…

《Java核心技术I》Swing的滑动条

滑动条 组合框在离散值中选择,滚动条从连续值中选择。 构造滑动条最常用方法:var slider new JSlider(min,max,initaValue); 如果忽略参数,最大值,最小值,初始值分别为0,100,50. 垂直滑动条,new JSlid…

STM32单片机使用CAN协议进行通信

CAN总线(控制器局域网总线) 理论知识 CAN总线是由BOSCH公司开发的一种简洁易用、传输速度快、易扩展、可靠性高的串行通信总线 CAN总线特征 两根通信线(CAN_H、CAN_L),线路少,无需共地差分信号通信&…

基础爬虫案例实战

我们已经学习了多进程、requests、正则表达式的基本用法,但还没有完整地实现过一个爬取案例。这一节,我们就来实现一个完整的网站爬虫,把前面学习的知识点串联起来,同时加深对这些知识点的理解。 准备工作 我们需要先做好如下准备工作。 安…

网络安全防范

实践内容 学习总结 PDR,$$P^2$$DR安全模型。 防火墙(Firewall): 网络访问控制机制,布置在网际间通信的唯一通道上。 不足:无法防护内部威胁,无法阻止非网络传播形式的病毒,安全策略…

【QSS样式表 - ⑤】:QLineEdit控件样式

文章目录 QLineEdit控件样式QSS示例1 - select-QSS示例2 - read-onlyQSS示例3 - echoModeQSS示例4 - 自定义密码模式 QLineEdit控件样式 常用属性 常用选择器 QSS示例1 - select- 代码: QLineEdit{selection-color: red;selection-background-color: yellow…

ScottPlot学习的常用笔记-02

ScottPlot学习的常用笔记-02 写在前面Why&Target:这里记一些杂项。上下文&背景 先记一下这几个小时的新收获先说一下,为什么可开发可视工具缩放的问题ScottPlot5.0起步.net Core: WinExe.Net Framework也是可以的 写在前面 Why&Target&…

机器学习基础算法 (二)-逻辑回归

python 环境的配置参考 从零开始:Python 环境搭建与工具配置 逻辑回归是一种用于解决二分类问题的机器学习算法,它可以预测输入数据属于某个类别的概率。本文将详细介绍逻辑回归的原理、Python 实现、模型评估和调优,并结合垃圾邮件分类案例进…

Docker_常用命令详解

这篇文章分享一下笔者常用的Docker命令供各位读者参考。 为什么要用Docker? 简单来说:Docker通过提供轻量级、隔离且可移植的容器化环境,使得应用在不同平台上保持一致性、易于部署和管理,具体如下 环境一致性: Docker容器使得…