基于推理的目标检测 DetGPT

基于推理的目标检测 DetGPT

flyfish

detgpt.github.io
近年来,由于大型语言模型(LLMs)的发展,计算机视觉领域取得了重大进展。这些模型使人类与机器之间能够进行更有效、更复杂的交互,为模糊人类与机器智能界限的新技术铺平了道路。在本文中,我们引入了一种新的目标检测范式,我们称之为基于推理的目标检测。与依赖特定物体名称的传统目标检测方法不同,我们的方法允许用户使用自然语言指令与系统进行交互,从而实现更高水平的交互性。我们提出的方法称为 DetGPT,它利用最先进的多模态模型和开放词汇目标检测器,在用户指令和视觉场景的背景下进行推理。这使得 DetGPT 能够根据用户表达的需求自动定位感兴趣的物体,即使该物体没有被明确提及。

在这里插入图片描述

例如,如果用户表示想要一杯冷饮,DetGPT 可以分析图像,识别出冰箱,并利用其对冰箱内常见物品的了解来定位饮料。这种灵活性使我们的系统适用于从机器人技术、自动化到自动驾驶等广泛的领域。总体而言,我们提出的范式和 DetGPT 展示了人类与机器之间进行更复杂、更直观交互的潜力。我们希望我们提出的范式和方法将为业界带来启发,并为更具交互性和通用性的目标检测系统打开大门。
在这里插入图片描述
内容如下:

对话:

  • Assistant: The image depicts a scene from the video game “The Legend of Zelda: Breath of the Wild.” In this game, there is a city called Gerudo Town, where only women are allowed and men are prohibited.
    • 助手:这张图片描绘了视频游戏《塞尔达传说:旷野之息》中的一个场景。在这个游戏中,有一个叫格鲁德镇的地方,那里只允许女性进入,男性禁止入内。
  • User: how to enter this city for Link?
    • 用户:林克要如何进入这个城市?
  • Assistant: In the game “The Legend of Zelda: Breath of the Wild,” there is a city called Gerudo Town, where only women are allowed and men are prohibited. To enter this city, you need to find a way to disguise yourself as a woman. One way to do this is to wear a Gerudo outfit, which can be found in various locations throughout the game.
    • 助手:在游戏《塞尔达传说:旷野之息》中,有一个叫格鲁德镇的地方,只允许女性进入,男性禁止入内。要进入这个城市,你需要想办法把自己伪装成女性。一种方法是穿上格鲁德套装,这种套装可以在游戏中的各个地方找到。
  • Detected Objects: Gerudo outfit.
    • 检测到的物体:格鲁德套装。

例子

一部分是关于人们在草地上放风筝的描述和相关问题与答案;另一部分是关于办公桌及其上的物品的描述和相关问题与答案。
请添加图片描述

第一部分(放风筝场景):
标题:

  • 一些人在草地上放风筝。
  • 一个男孩在公园里玩风筝。
  • 一群人在公园里放着一只色彩斑斓的风筝。
  • 一位女士和一个小女孩在绿色的田野上拿着风筝。
  • 一群人站在田野上放着一只彩色的风筝。

物体:

  • 椅子、风筝、背包、人

描述:
图像展示了一群人在草地上放风筝。有些人站着,有些人坐在椅子上。一位女士和一个小女孩正抓着风筝,让它飞起来。背景中有树木和其他绿色植物。

查询与回答:

  1. 我想放风筝。我需要什么物体?答案:图像中有一个风筝,你可以用它来放风筝。因此答案是:[风筝]
  2. 找出图像中的所有人。答案:图像中有多个可见的人,站着或坐着放风筝。因此答案是:[人]
  3. 我想坐着放风筝。我能使用什么物体?答案:图像中有草地上的椅子,你可以用来坐着放风筝。因此答案是:[椅子]
  4. 找出所有颜色鲜艳的物体。答案:图像中有多个可见的物体,包括天空中飞翔的彩色风筝。因此答案是:[风筝]
  5. 找出所有用于携带东西的物体。答案:图像中有一个背包,可以用来携带东西。因此答案是:[背包]
    请添加图片描述
    第二部分(办公桌场景):
    标题:
  • 两台电脑放在桌子上方。
  • 两台电脑放在一个大的木质电脑桌上。
  • 一张有键盘、笔记本电脑和显示器的桌子。
  • 一台电脑显示器旁边有一台键盘、笔记本电脑和鼠标。
  • 一台带有外部键盘、鼠标、电话和照片的笔记本电脑。

物体:

  • 椅子、人、电视、手机、杯子、笔记本电脑、鼠标、键盘

描述:
图像显示了一张桌子上放着各种电脑配件。桌子上有两台电脑,看起来都连接了外部键盘。除了电脑外,桌子上还有一台笔记本电脑、电脑显示器和鼠标。桌子上还有一部手机和一张照片。这张桌子似乎是木制的,场景中没有其他可见的物体或人。

查询与回答:

  1. 我如何打电话?答案:图像中有键盘、人、椅子、笔记本电脑、鼠标、杯子、手机和电视。要打电话,使用桌上的手机。因此答案是:[手机]
  2. 找出图像中的所有电子设备。答案:图像中有键盘、笔记本电脑、鼠标、电脑显示器、手机和电视。这些都是电子设备。因此答案是:[键盘、笔记本电脑、鼠标、电脑显示器、手机、电视]
  3. 找出所有可用于打字的物体。答案:图像中有键盘、笔记本电脑和外部键盘。这些都可以用来打字。因此答案是:[键盘、笔记本电脑、外部键盘]
  4. 你能找到任何黑色的物体吗?答案:图像中有键盘、人、椅子、笔记本电脑、鼠标、杯子、手机和电视。外部键盘和电脑鼠标是黑色的。因此答案是:[外部键盘、鼠标]
  5. 找出所有矩形形状的物体。答案:图像中有键盘、鼠标、电脑显示器、手机和电视。其中,电脑显示器和笔记本电脑可以被认为是矩形的。因此答案是:[电脑显示器、笔记本电脑]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/495364.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

优化 invite_codes 表的 SQL 创建语句

-- auto-generated definition create table invite_codes (id int auto_incrementprimary key,invite_code varchar(6) not null comment 邀请码,6位整数,确保在有效期内…

如何在 Ubuntu 22.04 上安装以及使用 MongoDB

简介 MongoDB 因其灵活性、可扩展性、性能和生态系统而受到开发人员的青睐,这些都是构建和驱动现代应用程序的关键能力。通过几个配置步骤,你就可以在你的 Ubuntu 22.04 LTS 机器上安装 MongoDB,这是 Ubuntu Linux 发行版的最新长期支持版本…

小程序app封装公用顶部筛选区uv-drop-down

参考ui:DropDown 下拉筛选 | 我的资料管理-uv-ui 是全面兼容vue32、nvue、app、h5、小程序等多端的uni-app生态框架 样式示例&#xff1a; 封装公用文件代码 dropDownTemplete <template><!-- 顶部下拉筛选区封装公用组件 --><view><uv-drop-down ref&…

vulnhub靶场-matrix-breakout-2-morpheus攻略(截止至获取shell)

扫描出ip为192.168.121.161 访问该ip&#xff0c;发现只是一个静态页面什么也没有 使用dir dirsearch 御剑都只能扫描到/robots.txt /server-status 两个页面&#xff0c;前者提示我们什么也没有&#xff0c;后面两个没有权限访问 扫描端口&#xff0c;存在81端口 访问&#x…

探索多模态大语言模型(MLLMs)的推理能力

探索多模态大语言模型&#xff08;MLLMs&#xff09;的推理能力 Multimodal Large Language Models (MLLMs) flyfish 原文&#xff1a;Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Mult…

C++之红黑树模拟实现

目录 红黑树的概念 红黑树的性质 红黑树的查找效率 红黑树的实现 红黑树的定义 红黑树节点的插入 红黑树的平衡调整 判断红黑树是否平衡 红黑树整体代码 测试代码 上期我们学习了AVL树的模拟实现&#xff0c;在此基础上&#xff0c;我们本期将学习另一个数据结构-…

SDMTSP:粒子群优化算法PSO求解单仓库多旅行商问题,可以更改数据集和起点(MATLAB代码)

一、单仓库多旅行商问题 单仓库多旅行商问题&#xff08;Single-Depot Multiple Travelling Salesman Problem, SD-MTSP&#xff09;&#xff1a;&#x1d45a;个推销员从同一座中心城市出发&#xff0c;访问其中一定数量的城市并且每座城市只能被某一个推销员访问一次&#x…

【Yonghong 企业日常问题 06】上传的文件不在白名单,修改allow.jar.digest属性添加允许上传的文件SH256值?

文章目录 前言问题描述问题分析问题解决1.允许所有用户上传驱动文件2.如果是想只上传白名单的驱动 前言 该方法适合永洪BI系列产品&#xff0c;包括不限于vividime desktop&#xff0c;vividime z-suit&#xff0c;vividime x-suit产品。 问题描述 当我们连接数据源的时候&a…

决策树(理论知识3)

目录 评选算法信息增益&#xff08; ID3 算法选用的评估标准&#xff09;信息增益率&#xff08; C4.5 算法选用的评估标准&#xff09;基尼系数&#xff08; CART 算法选用的评估标准&#xff09;基尼增益基尼增益率 评选算法 决策树学习的关键在于&#xff1a;如何选择最优划…

Echarts连接数据库,实时绘制图表详解

文章目录 Echarts连接数据库&#xff0c;实时绘制图表详解一、引言二、步骤一&#xff1a;环境准备与数据库连接1、环境搭建2、数据库连接 三、步骤二&#xff1a;数据获取与处理1、查询数据库2、数据处理 四、步骤三&#xff1a;ECharts图表配置与渲染1、配置ECharts选项2、动…

Odoo 免费开源 ERP:通过 JavaScript 创建对话框窗口的技术实践分享

作者 | 老杨 出品 | 上海开源智造软件有限公司&#xff08;OSCG&#xff09; 概述 在本文中&#xff0c;我们将深入研讨如何于 Odoo 18 中构建 JavaScript&#xff08;JS&#xff09;对话框或弹出窗口。对话框乃是展现重要讯息、确认用户操作以及警示用户留意警告或错误的行…

flask-admin的modelview 实现list列表视图中扩展修改状态按钮

背景&#xff1a; 在flask-admin的模型视图&#xff08;modelview 及其子类&#xff09;中如果不想重构UI视图&#xff0c;那么就不可避免的出现默认视图无法很好满足需求的情况&#xff0c;如默认视图中只有“新增”&#xff0c;“编辑”&#xff0c;“选中的”三个按钮。 材…

低空经济的地理信息支撑:构建安全、高效的飞行管理体系

随着无人机等低空飞行器的广泛应用&#xff0c;低空空域管理的重要性日益凸显。地理信息技术作为低空空域管理的重要支撑&#xff0c;对于保障低空经济的健康发展具有不可替代的作用。 地理信息技术在低空空域管理中的作用 地理信息技术在低空空域管理中扮演着关键角色&#x…

圣诞节文化交流会在洛杉矶成功举办

洛杉矶——12月21日&#xff0c;备受期待的“圣诞节文化交流会&#xff08;Christmas Art and Cultural Exchange Fair&#xff09;”在尔湾成功举办。本次活动由M.A.D, ACSDA Youth Committee, GlowStar Art Foundation共同举办&#xff0c;此次活动以文化交流为主题&#xff…

什么样的LabVIEW控制算自动控制?

自动控制是指系统通过预先设计的算法和逻辑&#xff0c;在无人工干预的情况下对被控对象的状态进行实时监测、决策和调整&#xff0c;达到预期目标的过程。LabVIEW作为一种图形化编程工具&#xff0c;非常适合开发自动控制系统。那么&#xff0c;什么样的LabVIEW控制算作“自动…

打造独特的博客封面:动态封面设置指南

如何设置你的专属封面 1先找到一个好的壁纸 以下是好用的壁纸网站 花瓣网 千图网 包图网 WallHere 壁纸 浏览器搜索可画 可画 或者是下载可画的PC端软件 我这里使用的是可画的PC端软件 我们选择这个 单图海报(横板 - 1200 * 726 像素) 这是我们进入的页面 我们点击…

快速解决oracle 11g中exp无法导出空表的问题

在一些生产系统中&#xff0c;有些时候我们为了进行oracle数据库部分数据的备份和迁移&#xff0c;会使用exp进行数据的导出。但在实际导出的时候&#xff0c;我们发现导出的时候&#xff0c;发现很多空表未进行导出。今天我们给出一个快速解决该问题的办法。 一、问题复现 我…

机器人加装电主轴【铣削、钻孔、打磨、去毛刺】更高效

机器人加装电主轴进行铣削、钻孔、打磨、去毛刺等作业&#xff0c;展现出显著的优势&#xff0c;并能实现高效加工。 1. 高精度与高效率 电主轴特点&#xff1a;高速电主轴德国SycoTec的产品&#xff0c;转速可达100000rpm&#xff0c;功率范围广&#xff0c;精度≤1μm&#…

详细介绍如何使用rapidjson读取json文件

本文主要详细介绍如何使用rapidjson库来实现.json文件的读取&#xff0c;分为相关基础介绍、结合简单示例进行基础介绍、结合复杂示例进行详细的函数实现介绍等三部分。 一、相关基础 1、Json文件中的{} 和 [] 在 JSON 文件中&#xff0c;{} 和 [] 分别表示不同的数据结构&…