2024-11-05 ,由麻省理工学院、伦敦大学学院等联合创建了Inquire数据集,这是一个包含五百万自然世界图像的文本到图像检索基准测试,目的是挑战多模态视觉-语言模型在专家级查询上的表现。这个数据集的创建,不仅填补了现有数据集在专家级检索任务上的空白,还为AI在生态学和生物多样性研究中的应用提供了新的挑战和机遇。
数据集地址:INQUIRE|生物多样性监测数据集|文本到图像检索数据集
一、研究背景:
随着多模态学习领域的快速发展,先进的模型已经展现出在零样本分类、视觉问题回答(VQA)和图像检索等任务上的卓越泛化能力。然而,这些模型在处理特定领域的专家级查询时,仍存在显著的性能差距,这限制了它们在生物多样性监测和生物医学成像等专业领域的应用潜力。
目前遇到困难和挑战:
1、现有数据集通常规模较小,且缺乏专家知识所需的复杂概念。
2、现有的图像检索模型在处理专家级查询时,往往无法达到精确检索的要求。
3、多模态模型在理解和检索自然世界图像时,需要更精细的图像理解和领域专业知识。
数据集地址:INQUIRE|生物多样性监测数据集|文本到图像检索数据集
二、让我们来一起看一下Inquire数据集
Inquire是一个挑战多模态视觉-语言模型在专家级查询上表现的文本到图像检索基准测试。
Inquire包含了iNaturalist 2024(iNat24)数据集,这是一个由五百万张自然世界图像组成的新数据集,以及250个专家级检索查询。这些查询覆盖了物种识别、环境、行为和外观等多个类别,强调了需要细致图像理解和领域专业知识的任务。
数据集构建:
iNat24数据集从iNaturalist平台的超过1.8亿张物种图像中采样而来,包含了由公民科学家收集和标注的10,000个不同物种的图像。Inquire的查询则来源于与生态学家、生物学家、鸟类学家、昆虫学家、海洋学家和林业专家的讨论和访谈。
数据集特点:
Inquire数据集的特点是其大规模和多样性,以及对专家级查询的全面标注。这些查询覆盖了物种识别、环境、行为和外观等多个类别,需要模型具备细致的图像理解和领域专业知识。此外,数据集的构建过程中注重了数据的地理分布,以减少偏见并提高数据的代表性。
研究人员可以使用Inquire进行两种核心的检索任务:Inquire-Fullrank(全数据集排名任务)和Inquire-Rerank(重排任务,用于优化前100个检索结果)。这些任务旨在评估和改进模型在大规模图像数据集中的检索性能。
基准测试:
Inquire的基准测试结果表明,即使是最先进的模型也面临着重大挑战。在mAP@50指标上,最好的模型也未能超过50%。这表明在专家级图像检索任务上,现有模型还有很大的提升空间。此外,通过使用更强大的多模态模型进行重排,可以显著提高检索性能,这为未来模型的发展提供了一个有前景的方向。
Inquire 是一个文本到图像检索基准,其中包含 250 个专家级查询,这些查询在新的 500 万张图像数据集上进行了全面标记。这些查询涵盖一系列生态和生物多样性概念,需要推理、图像理解和领域专业知识。
构成 Inquire 的精细查询的类别细分。每个查询类别都属于以下超级类别之一:Species、Context、Behavior 或 Appearance。
Inquire 中与每个标志性物种组关联的查询比例。
Inquire 基准测试由一个全数据集排名任务和一个针对图像检索问题不同方面的重新排名任务组成。
三、展望Inquire数据集的应用
比如,我是一个研究鸟类行为的生态学家。
我最近在研究:金雕——在筑巢期间的行为特别感兴趣。在过去,我的工作流程是这样的:
-
实地考察:我需要亲自前往金雕可能出现的地区,花费数周甚至数月的时间进行观察。这不仅耗费时间,而且由于金雕的活动范围很大,我可能需要覆盖广阔的地理区域。
-
数据收集:在实地考察中,我会用相机记录下金雕的行为,或者从当地的保护区和研究者那里收集数据和图片。
-
文献回顾:我会查阅大量的科学文献,试图找到其他研究者对金雕行为的描述和分析,以便对比和参考。
-
数据分析:收集到的数据需要手动整理和分析,这个过程既耗时又容易出错。
现在,有了Inquire数据集训练的系统,我的研究方法变得高效多了。
-
在线查询:我可以直接在系统中输入一个查询,比如“金雕筑巢行为”。这个查询会在整个五百万张图片的数据集中搜索,快速找出所有与金雕筑巢行为相关的图片。
-
图片筛选:搜索结果会展示一系列图片,每张图片都有详细的标签,包括拍摄地点、时间、金雕的行为细节等。我可以快速浏览这些图片,找到最符合我研究需求的图像。
-
行为分析:通过比较这些图片,我可以观察到金雕在不同地区筑巢时使用的材料。比如,我可能发现在某个山区的金雕喜欢使用一种特定的坚硬树枝,而在湿地地区的金雕则更喜欢使用柔软的芦苇。这种比较分析可以帮助我理解金雕是如何根据环境条件选择筑巢材料的。
-
深入研究:如果我发现某些图片特别有趣,我可以进一步放大查看细节,甚至联系图片的拍摄者获取更多的背景信息。
-
撰写报告:有了这些丰富的数据和图片,撰写科学报告和研究论文变得更加容易。我可以提供具体的例证和数据支持,使我的研究更加有说服力。
通过这个数据集,我不仅节省了大量的时间和资源,而且还能发现一些以前可能被忽视的细微行为差异。这些发现对于理解金雕的生态习性和保护措施的制定具有重要意义。
查找更多开源数据集,请打开:遇见数据集
遇见数据集-让每个数据集都被发现,让每一次遇见都有价值遇见数据集,国内领先的百万级数据集搜索引擎,实时追踪全球数据集市场,助力把握数字经济时代机遇。https://www.selectdataset.com/