大语言模型(LLM)与多模态大模型(MLLM)结合行人重识别(Reid)领域最新文献方法调研

Data Augmentation for Text-based Person Retrieval Using Large Language Models

这篇论文主要研究文本基础的人员检索(Text-based Person Retrieval, TPR)任务中的数据扩充问题,并提出了一种基于大语言模型(Large Language Models, LLM)的数据增强方法(LLM-DA)来解决该问题。

问题描述

构建大规模高质量的TPR数据集存在两个主要挑战:

  1. 数据匮乏:由于隐私保护问题,难以获取大规模的人员图像数据。
  2. 高质量标注困难:文本标注工作繁琐且不可避免地会引入标注偏差,现有的TPR数据集中的文本通常较短,无法全面描述目标人员的特征,并且存在偏差。
  3. 传统的数据扩充方法局限性:(如图像扩充和文本扩充)在提升TPR模型性能方面有限,尤其是简单的文本扩充方法(如随机删除、来回翻译)可能会破坏正确的句子结构,甚至改变原始语义概念,反而对模型训练有负面影响。

解决方法

为了解决上述问题,本文提出了一种基于大语言模型的文本数据增强方法(LLM-DA),框架如下:

image-20240910170640777

主要包括以下几个步骤:

  1. LLM文本重写:使用大语言模型(如Vicuna)对现有TPR数据集中的文本进行重写,以生成多样化的文本。这些重写的文本在增加词汇和句子结构多样性的同时,保留了原始的关键概念和语义信息。

    prompt:Rewrite this image caption.

  2. 文本真实性过滤器(Text Faithfulness Filter, TFF):由于LLM在生成文本时可能出现与原始文本不一致的“幻觉”问题(hallucination),TFF被引入以过滤掉存在噪声的重写文本。该过滤器通过计算原始文本和增强文本的语义相似度,确保增强文本与原始文本在语义上保持一致。

    image-20240910171110858

  3. 平衡采样策略(Balanced Sampling Strategy, BSS):为了平衡原始文本和增强文本在训练中的比例,BSS被用来控制训练中使用的原始文本和增强文本的比例。该策略通过抽样来生成一个混合相似性矩阵,该矩阵既包含图像和原始文本之间的相似性,也包含图像和增强文本之间的相似性,从而更好地实现模型训练。

    image-20240910171146792

    image-20240910171459796

实验结果

本文提出的LLM-DA方法是一种易于集成的“即插即用”方法,可以在不改变原始模型结构或损失函数形式的情况下显著提升TPR模型的性能。

image-20240910171531882

image-20240910171544820

Diverse Person: Customize Your Own Dataset for Text-Based Person Search

提出的问题

现有的数据集在多样性和细粒度特征上仍存在不足。此外,生成新的现实世界数据集面临行人隐私泄露的风险以及标注成本高的问题。现有的虚拟数据集虽然在一定程度上解决了这些问题,但其生成的文本注释的多样性和真实性远不及人工标注。

image-20240910173120515

解决方案

为了解决上述问题,论文提出了一种名为“Diverse Person (DP)”的新框架来生成高质量且多样化的文本描述行人搜索数据集。

image-20240910191621312

其方法主要包括以下几个步骤:

  1. 基于扩散模型的数据编辑:利用现有的服装和配饰图像作为参考属性图像,通过扩散模型对原始数据集图像进行编辑,从而生成多样化的图像数据。

  2. 大语言模型(LLM)生成注释:采用大语言模型(例如ChatGPT)基于原始注释并结合参考属性图像生成高质量的文本注释,这些注释在风格上与现实世界数据集保持一致。

  3. 基于属性的嵌入表示:通过视觉和文本特征的融合来增强生成图像与参考属性的对应关系,从而提高模型的判别能力。

结果

image-20240910193053236

Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID

提出的问题:

image-20240910193316925

  1. 文本描述的多样性问题:多模态大语言模型(MLLMs)在生成图像的文本描述时,往往具有相似的句子结构。这导致训练得到的文本到图像ReID模型容易过拟合特定的句子模式,降低了模型对真实世界中各种人类描述风格的泛化能力。

  2. 文本描述中的噪声问题:MLLMs生成的文本描述中可能存在错误,一些词汇可能与图像不匹配。错误的文本描述会影响模型的训练效果。

解决办法:

image-20240910193245173

  1. 模板多样性增强(Template-based Diversity Enhancement, TDE)方法

    • 针对文本描述的多样性问题,论文提出了一种基于模板的多样性增强方法。通过与ChatGPT进行多轮对话,生成多种描述模板,然后让MLLMs根据这些模板来生成图像的文本描述。这种方法显著增加了文本描述的多样性,使得生成的描述具有不同的句子结构,减少模型的过拟合问题。
      • “Wearing [clothing description], the [person/woman/man] also has [hair description] and is carrying [belongings description].”,
      • “Sporting [hair description], the [person/woman/man] is dressed in [clothing description] and is carrying [belongings description].”,
      • “With [hair description], the [person/woman/man] is wearing [clothing description] and is also carrying [belongings description].”,
  2. 噪声感知掩码(Noise-aware Masking, NAM)方法

    • 针对文本描述中的噪声问题,论文提出了一种新的噪声感知掩码方法。具体来说,计算每个文本标记与图像标记之间的相似性来识别潜在的错误词汇。对于不匹配的词汇,在后续训练中以较大的概率进行掩码,从而减少噪声文本描述对模型训练的负面影响。该方法与传统的掩码语言建模(MLM)不同,NAM根据噪声水平来掩码词汇,而不是均匀掩码。

    相似性矩阵计算

    • 使用图像和文本编码器在第 l l l 层的特征嵌入,计算文本标记和图像标记之间的相似性。具体来说,给定文本特征嵌入 F t = [ t 1 l , . . . , t N l ] F_t = [t_1^l, ..., t_N^l] Ft=[t1l,...,tNl] 和图像特征嵌入 F v = [ v 1 l , . . . , v M l ] F_v = [v_1^l, ..., v_M^l] Fv=[v1l,...,vMl],通过内积计算相似性矩阵 S ∈ R N × M S \in \mathbb{R}^{N \times M} SRN×M,其中 s i j s_{ij} sij 表示第 i i i 个文本标记和第 j j j 个图像标记之间的余弦相似度: S = F t T F v S = F_t^T F_v S=FtTFv

    文本标记的噪声水平估计

    • 如果某个文本标记与图像不匹配,那么该文本标记的嵌入与所有图像标记的嵌入之间的相似性得分通常较低。因此,可以使用以下公式估计每个文本标记的噪声水平 r i r_i ri r i = 1 − ( max ⁡ 1 ≤ j ≤ M s i j ) r_i = 1 - \left( \max_{1 \leq j \leq M} s_{ij} \right) ri=1(max1jMsij)
    • 上述公式计算出向量 r = [ r 1 , . . . , r N ] r = [r_1, ..., r_N] r=[r1,...,rN],它记录了所有文本标记的噪声水平。

**整体训练策略:**首先在大规模的LUPerson-MLLM数据集上进行模型的预训练,然后直接在三个主流的ReID基准(CUHK-PEDES、ICFG-PEDES和RSTPReid)上进行测试。也尝试了在三个数据集上的微调。

实验结果:

image-20240910204845661

image-20240910204458047

MLLMReID: Multimodal Large Language Model-based Person Re-identification

CVPR-2024

提出的问题

  1. 指令设计问题:在将多模态大语言模型(MLLM)应用于行人重识别(ReID)任务时,需要对模型进行指令学习。然而,设计适用于ReID任务的多样化指令既复杂又昂贵,同时可能会导致模型过拟合于特定指令,降低对未见样本的泛化能力。

  2. 视觉编码器与ReID任务的同步训练问题:在微调MLLM的视觉编码器时,视觉编码器与ReID任务并不是同步训练的。这种方式可能导致在ReID任务中无法直接反映视觉编码器的优化效果,从而降低了特征提取的效率和性能。

解决方法

为了应对上述问题,论文提出了两项主要的解决方案:

  1. 通用指令(Common Instruction)设计:为了解决指令设计问题,作者提出了一种简单的通用指令方法,利用了**大语言模型(LLM)自然生成连续文本的本质能力。**这样可以避免设计复杂和多样化的指令所带来的高昂成本,同时保持模型的多样性和泛化能力。具体来说,使用简单的文本延续指令,使得图像和文本都能生成相同的延续文本,从而解决指令设计的复杂性问题。

image-20240910214106885

image-20240910215846462

视觉模型:采用CLIP预训练的视觉编码器(ViT-L/14)来处理图像输入,并提取视觉特征(fv)。

特征映射与投影矩阵:为了在图像特征和语言嵌入空间之间架起桥梁,模型使用了一个简单的线性层(投影矩阵)。投影矩阵将视觉特征(fv)转换为语言嵌入标记,以匹配语言模型中的单词嵌入空间的维度。

这种架构确保了图像和文本输入能够产生一致的输出,从而优化视觉特征的提取和利用。

  1. 基于多任务学习的同步模块(SyncReID)为了解决视觉编码器和ReID任务不同步训练的问题,论文提出了一个基于多任务学习的同步训练模块。该模块确保MLLM的视觉编码器与ReID任务同步训练,通过直接使用ReID任务生成的损失来优化视觉编码器。这种方法提高了视觉编码器对行人特征的理解和提取能力,从而增强了模型在ReID任务中的表现。

SyncReID模块直接将大语言模型(LLM)输出的潜在图像特征向量(latent image feature vectors)应用于ReID任务,体现在损失上。

实验结果

image-20240910222131485

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/421104.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

framebuffer帧缓存

1. framebuffer Framebuffer(帧缓冲区)是用于存储图像数据的一块内存区域。我们可以将我们想要显示的图像数据写到framebuffer中,驱动程序每隔一段时间会自动的去读取Framebuffer中的图像数据,并根据读取到的图像数据在屏幕上显示…

最全整理:R/Rstudio/R包的更新

R 是开源的数据分析和统计计算语言,功能强大且应用广泛,R 的版本更新频率较高。最近处理数据时突然有一个 R 包无法安装,细探究发现这个 R 包需要新版本 R 的才可以安装。本文主要分享:更新 R、更新 Rstudio 和一键升级 R 包。 更…

web项目如何部署到服务器上呢?——麻烦的方法

只需关注web项目如何部署到服务器上,因为服务器运行时就可以访问web项目了。 一、麻烦的方法 1、首先启动服务器 (1)找到bin文件夹 (2)双击运行startup.bat文件 (3)运行之后的界面如下&#…

上海亚商投顾:沪指探底回升 华为产业链午后爆发

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 一.市场情绪 沪指昨日探底回升,深成指、创业板指盘中跌逾1%,午后集体拉升翻红。华为产业链午后走强…

Mysql系列-索引简介

索引是排好序的数据结构 1 索引数据结构 hash索引、二叉树、平衡二叉树、B-Tree、BTree 数据结构在线示例:点击跳转 2 索引类型 2.1 聚簇索引 又叫“聚集索引” ,索引和数据存储在一起 2.2 非聚簇索引 又叫“非聚集索引” ,索引和数据分开…

Linux系统玩ppsspp

安装ppsspp 在ppsspp的官网,有提供Linux版本的下载链接,仔细一看是flathub的链接,也就是说ppsspp官方推荐采用flatpak安装。 确实有一些发行版提供了自己的ppsspp包,比如说openSUSE和Fedora,不过我自己试用以后发现系…

我的创作纪念日——第0x100天

官方提示今天是开始创作的第256天,最初没反应过来第256天算是个什么纪念日,好像并没什么特殊的啊。仔细一想,难道是第0x100天的意思吗?哈哈,专属于程序猿的浪漫。 既然这样,还是写一篇文章,交个…

前端使用 Konva 实现可视化设计器(22)- 绘制图形(矩形、直线、折线)

本章分享一下如何使用 Konva 绘制基础图形:矩形、直线、折线,希望大家继续关注和支持哈! 请大家动动小手,给我一个免费的 Star 吧~ 大家如果发现了 Bug,欢迎来提 Issue 哟~ github源码 gitee源码 示例地址 矩形 先上效…

实现C程序绑定TCP端口

实现C程序绑定TCP端口 步骤概述伪代码C代码实现解释在网络编程中,TCP(传输控制协议)是一种面向连接的、可靠的、基于字节流的传输层通信协议。绑定TCP端口是服务器端应用程序在网络通信中的一个关键步骤,它允许服务器监听来自客户端的连接请求。 本文将介绍如何使用C语言…

Caffenie配合Redis做两级缓存

一、什么是两级缓存 在项目中。一级缓存用Caffeine,二级缓存用Redis,查询数据时首先查本地的Caffeine缓存,没有命中再通过网络去访问Redis缓存,还是没有命中再查数据库。具体流程如下 二、简单的二级缓存实现-v1 目录结构 2…

基于SpringBoot+Vue+MySQL的房屋租赁管理系统

系统展示 用户前台界面 管理员后台界面 系统背景 二十一世纪互联网的出现,改变了几千年以来人们的生活,不仅仅是生活物资的丰富,还有精神层次的丰富。在互联网诞生之前,地域位置往往是人们思想上不可跨域的鸿沟,信息的…

uniapp 携带网址跳转webview页面报错解决

然后红框中的代码正常执行的 解决方案: 向webview页面携带参数时做以下处理: 接参后做以下处理: 效果展示:

谷歌怎么导入egd书签

https://support.google.com/chrome/answer/96816?hlzh-Hans

0906作业+思维导图梳理

一、作业: 1、创捷一个类似于qq登录的界面 1)源代码 #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this);//QPushbutton:登录、退出this-…

代码随想录训练营 Day56打卡 图论part06 108. 冗余连接 109. 冗余连接II

代码随想录训练营 Day56打卡 图论part06 一、卡码108. 冗余连接 题目描述 有一个图,它是一棵树,他是拥有 n 个节点(节点编号1到n)和 n - 1 条边的连通无环无向图(其实就是一个线形图),如图&…

二、Android Studio集成ffmpeg so

目录 1、前言 2、新建AS工程 2.1 选择Native C 2.2 按图编辑和编辑 2.3 选择C标准 2.4 最初工程目录展示 3、拷贝so库到AS 4、编辑CMakeLists.txt 5、修改build.gradle 6、编辑Native-lib.cpp 7、修改MainActivity.java 8、效果展示 1、前言 本文章之前也是参考了…

HTML5中IndexedDB前端本地数据库

一、indexedDB为何替代了Web SQL Database? 跟小朋友的教育从来没有什么“赢在起跑线”这种说法一样,在前端领域,也不是哪来先出来哪个就在日后引领风骚的。 HTML5 indexedDB和Web SQL Database都是本地数据库数据存储,Web SQL Da…

DX-5009N 10G交换机 SFP接口+猫棒 代替运营商光猫 【注册状态O5但是无法PPPoe拨号踩坑——交换机VLAN配置】

买了个诺基亚 猫棒,准备代替光猫,还弱电箱一个清净 参数填完一切正常,注册状态O5 但是openwrt拨号死活上不去。windows拨号也是651 网络架构 SPF口与网口8为同一vlan,做光电转换,交给路由器wan口 路由器PPPoe拨号 1-7网…

『功能项目』播放动画时禁止点击移动【40】

我们打开上一篇39GameObject对象池 - 第三职业的项目, 本章要做的事情是在第三职业播放续航攻击动画时禁止点击时触发的移动函数,换句话说是在播放攻击动画时禁止移动 修改脚本:PlayerRayClickNavigation.cs 运行项目 - 播放第三职业续航技能…

(十四)、为 SpringCloud 项目生成 Docker 镜像

文章目录 1、原理2、最佳实践2.1、获得 SpringCloud 微服务启动模块的 jar 文件2.2、准备文件夹和 Dockerfile 文件2.3、 Dockerfile 文件的内容2.4、通过命令行构件新镜像 3、异常情况和处理:failed to create LLB definition3.1、现象3.2、解决配置国内镜像仓库清…