ChatGPT Asks, BLIP-2 Answers: Automatic Questioning Towards Enriched Visual Descriptions (ChatGPT提问,BLIP-2回答:图像描述自动提问)
https://arxiv.org/pdf/2303.06594.pdf
https://github.com/Vision-CAIR/ChatCaptioner
ChatCaptioner是一种用于图像描述的新型自动提问方法,基于Chat GPT设计自动提问系统并将其集成到图像描述中,ChatGPT被提示向BLIP-2询问一系列图像描述相关问题,通过不断从BLIP-2(一种强视觉问答模型)的答案中获取新的图像信息,ChatCaptioner能够生成更详细的图像描述。
定义为问题生成任务,问题生成是从给定的文章和答案中生成问题的任务。
创新点:(1)目的在于通过生成的问题来获取更多知识;(2)在之前问题的基础上不断提出新的和相关的问题。(3)使用大型语言模型,不需要提问训练。
ChatCaptioner
ChatCaptioner包含一个提问者ChatGPT和一个应答者BLIP-2。
Chat GPT Prompt
p t a s k Q + p c h a t + p q p_{task_Q}+p_{chat}+p_q ptaskQ+pchat+pq
- p t a s k Q p_{task_Q} ptaskQ:设置上下文并概述ChatGPT需要执行的任务。
- p c h a t p_{chat} pchat:聊天日志,包含之前所有问题和答案。遵循模板:
第一个问题硬编码为“详细描述图像”以开始对话。 - p q p_q pq:指导ChatGPT生成新的问题,位于聊天日志之后。
通过丢弃从“Answer:”开始的问题生成文本,自动删除这些虚构的答案。
BLIP-2 Prompt :
p t a s k A + p c h a t + p a p_{task_A}+p_{chat}+p_a ptaskA+pchat+pa
- p t a s k A p_{task_A} ptaskA:缓解图像中不存在所提问信息的幻觉问题。
- p c h a t p_{chat} pchat:聊天日志,包含之前所有问题和答案。遵循模板:
第一个问题硬编码为“详细描述图像”以开始对话。 - p a p_a pa:指导BLIP-2的回答过程。
丢弃任何以“Question:”开头的文本。
图像描述总结:在对话后使用摘要指令,该指令位于聊天日志之后,提示ChatGPT使用以下结构生成摘要。
局限性
ChatCaptioner的标题正确性依赖于BLIP-2的答案。虽然设计了不确定性提示来减少BLIP2的错误答案数量,但仍然有一小部分答案是错误的。
未来(1)将自动提问与更好的视觉语言模型相结合,可能会增强其视觉描述能力。
(2)由于ChatCaptioner基于LLM,有时可能会产生冒犯性或社会偏见的对话和标题,使用经过筛选的数据集或人工反馈对系统进行微调可能会缓解这个问题。