INQUIRE:一个包含五百万张自然世界图像,涵盖10,000个不同物种的专为专家级文本到图像检索任务设计的新型基准数据集。

2024-11-05 ,由麻省理工学院、伦敦大学学院等联合创建了Inquire数据集,这是一个包含五百万自然世界图像的文本到图像检索基准测试,目的是挑战多模态视觉-语言模型在专家级查询上的表现。这个数据集的创建,不仅填补了现有数据集在专家级检索任务上的空白,还为AI在生态学和生物多样性研究中的应用提供了新的挑战和机遇。

数据集地址:INQUIRE|生物多样性监测数据集|文本到图像检索数据集

一、研究背景:

随着多模态学习领域的快速发展,先进的模型已经展现出在零样本分类、视觉问题回答(VQA)和图像检索等任务上的卓越泛化能力。然而,这些模型在处理特定领域的专家级查询时,仍存在显著的性能差距,这限制了它们在生物多样性监测和生物医学成像等专业领域的应用潜力。

目前遇到困难和挑战:

1、现有数据集通常规模较小,且缺乏专家知识所需的复杂概念。

2、现有的图像检索模型在处理专家级查询时,往往无法达到精确检索的要求。

3、多模态模型在理解和检索自然世界图像时,需要更精细的图像理解和领域专业知识。

数据集地址:INQUIRE|生物多样性监测数据集|文本到图像检索数据集

二、让我们来一起看一下Inquire数据集

Inquire是一个挑战多模态视觉-语言模型在专家级查询上表现的文本到图像检索基准测试。

Inquire包含了iNaturalist 2024(iNat24)数据集,这是一个由五百万张自然世界图像组成的新数据集,以及250个专家级检索查询。这些查询覆盖了物种识别、环境、行为和外观等多个类别,强调了需要细致图像理解和领域专业知识的任务。

数据集构建:

iNat24数据集从iNaturalist平台的超过1.8亿张物种图像中采样而来,包含了由公民科学家收集和标注的10,000个不同物种的图像。Inquire的查询则来源于与生态学家、生物学家、鸟类学家、昆虫学家、海洋学家和林业专家的讨论和访谈。

数据集特点:

Inquire数据集的特点是其大规模和多样性,以及对专家级查询的全面标注。这些查询覆盖了物种识别、环境、行为和外观等多个类别,需要模型具备细致的图像理解和领域专业知识。此外,数据集的构建过程中注重了数据的地理分布,以减少偏见并提高数据的代表性。

研究人员可以使用Inquire进行两种核心的检索任务:Inquire-Fullrank(全数据集排名任务)和Inquire-Rerank(重排任务,用于优化前100个检索结果)。这些任务旨在评估和改进模型在大规模图像数据集中的检索性能。

基准测试:

Inquire的基准测试结果表明,即使是最先进的模型也面临着重大挑战。在mAP@50指标上,最好的模型也未能超过50%。这表明在专家级图像检索任务上,现有模型还有很大的提升空间。此外,通过使用更强大的多模态模型进行重排,可以显著提高检索性能,这为未来模型的发展提供了一个有前景的方向。

Inquire 是一个文本到图像检索基准,其中包含 250 个专家级查询,这些查询在新的 500 万张图像数据集上进行了全面标记。这些查询涵盖一系列生态和生物多样性概念,需要推理、图像理解和领域专业知识。

构成 Inquire 的精细查询的类别细分。每个查询类别都属于以下超级类别之一:Species、Context、Behavior 或 Appearance。

Inquire 中与每个标志性物种组关联的查询比例。

Inquire 基准测试由一个全数据集排名任务和一个针对图像检索问题不同方面的重新排名任务组成。

三、展望Inquire数据集的应用

比如,我是一个研究鸟类行为的生态学家。

我最近在研究:金雕——在筑巢期间的行为特别感兴趣。在过去,我的工作流程是这样的:

  1. 实地考察:我需要亲自前往金雕可能出现的地区,花费数周甚至数月的时间进行观察。这不仅耗费时间,而且由于金雕的活动范围很大,我可能需要覆盖广阔的地理区域。

  2. 数据收集:在实地考察中,我会用相机记录下金雕的行为,或者从当地的保护区和研究者那里收集数据和图片。

  3. 文献回顾:我会查阅大量的科学文献,试图找到其他研究者对金雕行为的描述和分析,以便对比和参考。

  4. 数据分析:收集到的数据需要手动整理和分析,这个过程既耗时又容易出错。

现在,有了Inquire数据集训练的系统,我的研究方法变得高效多了。

  1. 在线查询:我可以直接在系统中输入一个查询,比如“金雕筑巢行为”。这个查询会在整个五百万张图片的数据集中搜索,快速找出所有与金雕筑巢行为相关的图片。

  2. 图片筛选:搜索结果会展示一系列图片,每张图片都有详细的标签,包括拍摄地点、时间、金雕的行为细节等。我可以快速浏览这些图片,找到最符合我研究需求的图像。

  3. 行为分析:通过比较这些图片,我可以观察到金雕在不同地区筑巢时使用的材料。比如,我可能发现在某个山区的金雕喜欢使用一种特定的坚硬树枝,而在湿地地区的金雕则更喜欢使用柔软的芦苇。这种比较分析可以帮助我理解金雕是如何根据环境条件选择筑巢材料的。

  4. 深入研究:如果我发现某些图片特别有趣,我可以进一步放大查看细节,甚至联系图片的拍摄者获取更多的背景信息。

  5. 撰写报告:有了这些丰富的数据和图片,撰写科学报告和研究论文变得更加容易。我可以提供具体的例证和数据支持,使我的研究更加有说服力。

通过这个数据集,我不仅节省了大量的时间和资源,而且还能发现一些以前可能被忽视的细微行为差异。这些发现对于理解金雕的生态习性和保护措施的制定具有重要意义。

查找更多开源数据集,请打开:遇见数据集

遇见数据集-让每个数据集都被发现,让每一次遇见都有价值遇见数据集,国内领先的百万级数据集搜索引擎,实时追踪全球数据集市场,助力把握数字经济时代机遇。icon-default.png?t=O83Ahttps://www.selectdataset.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/470851.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DevOps工程技术价值流:加速业务价值流的落地实践与深度赋能

DevOps的兴起,得益于敏捷软件开发的普及与IT基础设施代码化管理的革新。敏捷宣言虽已解决了研发流程中的诸多挑战,但代码开发仅是漫长价值链的一环,开发前后的诸多问题仍亟待解决。与此同时,虚拟化和云计算技术的飞跃,…

4.4 软件设计:UML顺序图

UML顺序图 1、 UML2、 UML顺序图2.1 顺序图组成对象生命线消息 2.2 顺序图和用例登录用例 2.3 顺序图建模顺序图建模参考策略建立顺序图的步骤建立顺序图的示例 3、面对对象的设计原则3.1 特点3.2 层次3.3 注意点类设计需要强内聚,弱耦合可重用性框架 1、 UML 统一…

除了 Mock.js,前端还有更方便的 Mock 数据工具吗?

在前端开发中,模拟数据(Mock Data)是不可或缺的一部分,它能够帮助开发者在后端接口未完成前进行界面和逻辑的测试。而 Mock.js 是一个广泛使用的库,它通过简洁的语法和强大的功能,让前端开发者可以轻松地创…

继承和多态(上)

目录 一.继承 1.何为继承 2.继承的语法 3.子类访问父类 (1)子类访问父类的成员变量 (2)子类访问的父类方法 二.super关键字 1.super用于调用父类的构造方法 2.super用于调用父类的实例方法 3.super用于访问父类的实例变量 三.子父类构造方法 和代码块的执行优先顺序…

【练习案例】30个 CSS Javascript 加载器动画效果

本文分享一些 Loader CSS、Javascript 示例,这些示例均来源于Codepen网站上,里面有案例的源码与显示效果,您可以用于练习,也可以将您认为有趣的动画,添加到您的项目中,以帮助您创建更加有趣的等待页面加载动…

45.第二阶段x86游戏实战2-hook监控实时抓取游戏lua

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 本人写的内容纯属胡编乱造,全都是合成造假,仅仅只是为了娱乐,请不要…

限流算法(令牌通漏桶计数器)

限流算法(令牌桶&漏桶&计数器 ) 什么是限流? 限流是为保护自身系统和下游系统不被高并发流量冲垮,导致系统雪崩等问题 限流在很多场景中用来限制并发请求量,比如说秒杀抢购、双11高并发流量等 在保证系统可…

❤React-React 组件基础(类组件)

❤React-React 组件基础 1、组件化开发介绍 组件化开发思想:分而治之 React的组件按照不同的方式可以分成类组件: 划分方式一(按照组件的定义方式) 函数组件(Functional Component )和类组件(Class Component); …

2024/11/13 英语每日一段

The new policy has drawn many critics. Data and privacy experts said the Metropolitan Transit Authority’s new initiative doesn’t address the underlying problem that causes fare evasion, which is related to poverty and access. Instead, the program tries “…

MySQL重难点(一)索引

目录 一、引子:MySQL与磁盘间的交互基本单元:Page 1、重要问题:为什么 MySQL 每次与磁盘交互,都要以 16KB 为基本单元?为什么不用多少加载多少? 2、有关MySQL的一些共识 3、如何管理 Page 3.1 单个 P…

【软件工程】一篇入门UML建模图(类图)

🌈 个人主页:十二月的猫-CSDN博客 🔥 系列专栏: 🏀软件开发必练内功_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 目录 1. 前…

vue2+ element ui 集成pdfjs-dist

目录 1. 下载Pdf.js1.1 下载1.2 修改配置1.2.1 将pdfjs-3.8.162-dist复制到项目中1.2.2 解决跨域问题1.2.3 将pdf.worker.js文件复制到public目录下1.2.4 安装 pdfjs-dist1.2.5 前端vue代码(示例) 3. 参考资料 1. 下载Pdf.js 1.1 下载 下载链接(官方)需…

蓝桥杯每日真题 - 第7天

题目:(爬山) 题目描述(X届 C&C B组X题) 解题思路: 前缀和构造:为了高效地计算子数组的和,我们可以先构造前缀和数组 a,其中 a[i] 表示从第 1 个元素到第 i 个元素的…

大语言模型:解锁自然语言处理的无限可能

0.引言 在当今的科技时代,自然语言处理技术正以前所未有的速度发展,语言大模型作为其中的核心力量,对各个领域产生了深远的影响。本文旨在探讨语言大模型的发展历程、核心技术以及广泛的应用场景,以帮助读者更好地理解这一前沿技…

【vue2.0入门】vue基本语法

目录 引言一、页面动态插值1. 一般用法 二、计算属性computed三、动态class、style绑定四、条件渲染与列表渲染五、事件处理六、表单输入绑定七、总结 引言 本系列教程旨在帮助一些零基础的玩家快速上手前端开发。基于我自学的经验会删减部分使用频率不高的内容,并不…

【STM32F1】——无线收发模块RF200与串口通信

【STM32F1】——无线收发模块RF200与串口通信 一、简介 本篇主要对调试无线收发模块RF200的过程进行总结,实现了以下功能。 串口普通收发:使用STM32F103C8T6的USART2串口接收中断,实现两个无线收发模块RF200间的通信。 二、RF200介绍 电压…

《TCP/IP网络编程》学习笔记 | Chapter 8:域名及网络地址

《TCP/IP网络编程》学习笔记 | Chapter 8:域名及网络地址 《TCP/IP网络编程》学习笔记 | Chapter 8:域名及网络地址域名系统什么是域名?DNS 服务器IP 地址和域名之间的转换使用域名的必要性利用域名获取 IP 地址利用 IP 地址获取域名 基于 Wi…

前端开发中常用的包管理器(npm、yarn、pnpm、bower、parcel)

文章目录 1. npm (Node Package Manager)2. Yarn (Yarn Package Manager)3. pnpm4. Bower5. Parcel总结 前端开发中常用的包管理器主要有以下几个: 1. npm (Node Package Manager) 简介: npm 是 Node.js 的默认包管理器,也是最广泛使用的包…

HarmonyOS 如何实现传输中的数据加密

文章目录 摘要引言数据传输加密概述选择加密算法和传输协议加密实现方案与 Demo 代码配置 HTTPS/TLSAES 加密的实现代码详解RSA加密的实现代码详解 QA环节总结参考资料 摘要 本文将介绍在 HarmonyOS 应用中如何实现数据传输的加密策略。我们将讨论常见的加密算法(如…

ArkTs简单入门案例:简单的图片切换应用界面

在鸿蒙 OS 应用开发的过程中,我们常常需要通过组合各种组件和编写相应的逻辑来实现丰富多样的功能。今天,我就来和大家详细解析一段实现简单图片切换功能的代码,希望能帮助到那些刚接触鸿蒙 OS 应用开发的朋友们。 一、代码导入部分 Entry …