ChatGPT提问,BLIP-2回答:图像描述自动提问

ChatGPT Asks, BLIP-2 Answers: Automatic Questioning Towards Enriched Visual Descriptions (ChatGPT提问,BLIP-2回答:图像描述自动提问)

https://arxiv.org/pdf/2303.06594.pdf
https://github.com/Vision-CAIR/ChatCaptioner

ChatCaptioner是一种用于图像描述的新型自动提问方法,基于Chat GPT设计自动提问系统并将其集成到图像描述中,ChatGPT被提示向BLIP-2询问一系列图像描述相关问题,通过不断从BLIP-2(一种强视觉问答模型)的答案中获取新的图像信息,ChatCaptioner能够生成更详细的图像描述。
在这里插入图片描述
定义为问题生成任务,问题生成是从给定的文章和答案中生成问题的任务。
创新点:(1)目的在于通过生成的问题来获取更多知识;(2)在之前问题的基础上不断提出新的和相关的问题。(3)使用大型语言模型,不需要提问训练。
在这里插入图片描述

ChatCaptioner

ChatCaptioner包含一个提问者ChatGPT和一个应答者BLIP-2。

Chat GPT Prompt

p t a s k Q + p c h a t + p q p_{task_Q}+p_{chat}+p_q ptaskQ+pchat+pq

  • p t a s k Q p_{task_Q} ptaskQ:设置上下文并概述ChatGPT需要执行的任务。
    在这里插入图片描述
  • p c h a t p_{chat} pchat:聊天日志,包含之前所有问题和答案。遵循模板:
    在这里插入图片描述
    第一个问题硬编码为“详细描述图像”以开始对话。
  • p q p_q pq:指导ChatGPT生成新的问题,位于聊天日志之后。
    在这里插入图片描述
    通过丢弃从“Answer:”开始的问题生成文本,自动删除这些虚构的答案。

BLIP-2 Prompt :

p t a s k A + p c h a t + p a p_{task_A}+p_{chat}+p_a ptaskA+pchat+pa

  • p t a s k A p_{task_A} ptaskA:缓解图像中不存在所提问信息的幻觉问题。

在这里插入图片描述

  • p c h a t p_{chat} pchat:聊天日志,包含之前所有问题和答案。遵循模板:
    在这里插入图片描述第一个问题硬编码为“详细描述图像”以开始对话。
  • p a p_a pa:指导BLIP-2的回答过程。
    在这里插入图片描述
    丢弃任何以“Question:”开头的文本。

图像描述总结:在对话后使用摘要指令,该指令位于聊天日志之后,提示ChatGPT使用以下结构生成摘要。
在这里插入图片描述

局限性

ChatCaptioner的标题正确性依赖于BLIP-2的答案。虽然设计了不确定性提示来减少BLIP2的错误答案数量,但仍然有一小部分答案是错误的。
未来(1)将自动提问与更好的视觉语言模型相结合,可能会增强其视觉描述能力。
(2)由于ChatCaptioner基于LLM,有时可能会产生冒犯性或社会偏见的对话和标题,使用经过筛选的数据集或人工反馈对系统进行微调可能会缓解这个问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/19674.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微软发布基于ChatGPT打造的 Bing 搜索服务

微软推出了全新的Bing搜索体验,它是基于ChatGPT技术的。现在,所有人都可以使用桌面版的"Bing有限预览"。只需访问Bing.com,你就可能会看到全新的搜索界面,微软还提供了一些问题示例供参考。点击"试试吧"&…

前端已死? 2023 年前端十大 Web 趋势

点击“开发者技术前线”,选择“星标” 让一部分开发者看到未来 作者 | Robin Wiruch 来自|infoQ 译者 | 核子可乐 策划 | 丁晓昀 虽然就个人观点,我觉得 Web 开发的前景已经好几年没什么进展(2016 年至 2021 年),但在…

两种开源聊天机器人的性能测试(一)——ChatterBot

因为最近在学习自然语言处理的相关知识,QQ小冰这个东西最近又很热,所以就试着玩了下两个开源聊天机器人,在这里分享一点小经验,希望对有共同兴趣的人能起到那么一点作用。 我主要测试了两个聊天机器人,一个是ChatterBo…

聊聊chatbot那些事

1. 生活中的chatbot ​ 现在社会,随着AI的迅猛发展,各种新技术层出不穷,大大改变了我们的生活,其中,有很多技术已经走入了我们的日常生活,比如CV领域的人脸识别 ,NLP 领域的智能助手等。本次&a…

Chatbot(五)

一、走进聊天机器人 目标 知道常见的bot的分类知道企业中常见的流程和方法 1.1 目前企业中的常见的聊天机器人 QA BOT (问答机器人) : 回答问题 1.代表:智能名服 2.比如: 提问和回答TASK BOT(任务机器人): 助人们做事情 1.代表: siri 2.比如:设五明天早上9点的闹钟CHAT BOT…

ChatGPT是什么?为何会引爆国内算力需求?

过去十年中,通过“深度学习大算力”从而获得训练模型是实现人工智能的主流技术途径。由于深度学习、数据和算力这三个要素都已具备,全世界掀起了“大炼模型”的热潮,也催生了大批人工智能企业。 大模型是人工智能的发展趋势和未来 大模型&…

ChatGPT带你轻松入门嵌入式,实现51、STM32、Arduino、树莓派、Linux各种点灯程序...

关注星标公众号,不错过精彩内容 作者 | strongerHuang 微信公众号 | strongerHuang 最近两个月什么最火?我想 ChatGPT 必定算其中一个。 这东西能有多火?我之前一直以为只有在互联网等技术领域比较火,直到前不久,我们当…

OpenAI带微软市值飞升2.6万亿美元!外媒却爆两家内斗,关系微妙

来源:新智元 这轮AI热潮,简直让微软赚翻了! 就在今天,微软凭借着近2.6万亿美元的市值,成功创下了历史新高。 因为市场对AI前景的乐观情绪,本周四收盘时,微软股价达到了创纪录的水平 2021年&…

【NVIDIA】一口气了解英伟达,芯片新王凭什么是他?

英伟达公司 前言显卡市场英特尔与英伟达市场占有率比较挑战英伟达垄断地位和硬件软件融合显卡在人工智能领域的应用 转变发生的背景神经网络和英伟达显卡的关键作用人工智能领域共识英伟达核心技术覆盖的领域算力租赁服务AI云业务硬件与软件服务中国市场业务划分成长与股价 芯片…

AI助力 —— 软件开发、学习、生活

本人有幸在明明如月学长的指导下参加 AI 助力软件开发的活动,感谢明明如月学长的指导!!! 明明如月学长:CSDN的博客专家以及蚂蚁集团Java 高级工程师,大家可以去慕课网搜索解锁大厂思维:剖析《阿…

PingCAP 唐刘:一个咨询顾问对 TiDB Chat2Query Demo 提出的脑洞

导读 近日,TiDB Cloud 发布了 Chat2Query 功能,在 TiDB Cloud 上通过自然语言提问,即可生成相应的 SQL,通过 TiDB Cloud 对上传的任意数据集进行分析。Gartner 也在一份有关 ChatGPT 对数据分析影响研究的报告中提及了 PingCAP 的…

双标马斯克,扬言起诉微软,打不过就威胁

兴许是两日前马斯克的“地球第一大”超级火箭“星舰”发射遇到接二连三的问题,马老板窝了一肚子火,在推特骂人。 这不,OpenAI 刚刚撕了半截,马斯克又跟 OpenAI 身后的大股东微软杠上了。马老板直接在推特上飙狠话——我要告微软&a…

【AI面试】目标检测中one-stage、two-stage算法的内容和优缺点对比汇总

在深度学习领域中,图像分类,目标检测和目标分割是三个相对来说较为基础的任务了。再加上图像生成(GAN,VAE,扩散模型),keypoints关键点检测等等,基本上涵盖了图像领域大部分场景了。 …

Python入门数据分析资料笔记-自用(纯小白入门级)

1.软件和环境安装 (1)Anaconda安装(装Anaconda的话,就不用再单独装Python了,方便小白) ① 下载与安装 参考(建议非C盘安装) 史上最全最详细的Anaconda安装教程_OSurer的博客-CSDN博客_anaco…

python中\t无法对齐问题原理解释(自用)

敲了很多字母当例子,首先要知道一个\t占4位,如果前面的字符位数不够4位就补到4位,刚好够4位就多加一个\t,这个用图表解释最清晰 字符最好不要太多,太多了,会冲出当前\t,到下一个\t了,暂时没找到…

最新商业版ChatGPT源码V4.7.1+用户付费+支付系统+AI绘画+卡密系统+推广系统

AI付费创作系统: 程序完美运行无BUG,独家开发,支持6种会员开通模式,有:"购买提问次数"或者"开通月付会员"套餐等等 套餐次数和价格可以自定义在后台进行修改 支付直接对接易支付或码支付就可以了,每个IP均…

EPLAN中如何画屏蔽双绞线

如何在EPLAN中画出如下的双绞屏蔽电缆 先画两条导线 选择对角连接线 画出双绞线 选择屏蔽 为了让屏蔽线的连接点在右边,从双绞线右边的中间点开始向左画出入图所示的屏蔽线。如果希望屏蔽线的连接点在左边,则从左边开始往右边画。这样屏蔽线的连接点…

html禁止查看图片,强看被屏蔽微信朋友圈

微信朋友圈被屏蔽了和没发朋友圈的区别是什么 区别主要从朋友圈的个人资料里是否存在个人相册这一选项: 1,朋友圈被屏蔽了是这样的(有”个人相册“但看不见照片): 2,没发朋友圈是这样的(没有“个人相册”这一栏): 扩展…

屏蔽图片的chrome插件

有时候觉得CSDN博客的广告好烦啊,还有有些看小说的网站,于是找了个屏蔽图片的插件。 效果如图: 之前博客的广告 之后: CSDN的广告有字,所以不会完全不显示,但是有很多小说网站都可以直接全部屏蔽掉…