【论文解读】ECCV2018细粒度分类:自监督机制NTS-Net模型引领新方向 (附论文地址)

论文地址:https://arxiv.org/pdf/1809.00287

这篇论文由北京大学机器感知国家重点实验室的Ze Yang、Tiange Luo、Dong Wang、Zhiqiang Hu、Jun Gao和Liwei Wang撰写,发表于2018年。论文提出了一种新颖的自监督机制,用于在没有边界框/部分注释的情况下有效定位图像中的信息性区域,以解决细粒度分类的挑战。以下是对论文内容的解读:

研究背景与动机

细粒度分类任务的目标是区分属于同一上级类别的下属类别,例如区分不同的鸟类物种或汽车型号。这些下属类别通常由领域专家根据特定区域的微妙差异来定义。深度学习虽然在许多计算机视觉任务中推动了研究进展,但在细粒度分类中的应用并不十分令人满意,主要难点在于找到图像中的信息区域并提取其中的判别特征。为了解决这一问题,作者提出了一种新的自监督机制,无需边界框或部分注释即可有效定位图像中的信息性区域。

NTS-Net模型

论文提出的NTS-Net(Navigator-Teacher-Scrutinizer Network)模型由三个代理组成:导航者(Navigator)、教师(Teacher)和审查者(Scrutinizer)。模型基于区域信息性和它们成为真实类别的概率之间的内在一致性,设计了一种新颖的训练范式【Teacher代理评估Navigator所选区域,并提供反馈。Scrutinizer代理则对这些区域进行审查,并做出预测。】。在这种范式下,导航者在教师的指导下检测图像中最有信息性的区域,然后审查者对导航者提出的区域进行审查并做出预测。

NTS-Net的工作流程

  1. The Navigator agent 网络导航模型,以关注信息最丰富的区域。对于图像中的每个区域,Navigator通过对损失排序来预测该区域的信息量(如下所述),并利用这些预测来提出信息最丰富的区域。

  2. Teacher agent 对Navigator提出的信息量最大的区域进行评估,并提供反馈:对于每个提出的区域,Teacher评估其概率为ground-truth class。置信度评估指导navigator网络使用排序一致性损失函数(在代码实现中称为“ranking loss”),提出信息更丰富的区域。

  3. Scrutinizer agent 从Navigator中对提出的区域进行审查并进行细粒度分类:将每个提出的区域扩大到相同大小,agent从中提取特征,将区域特征与整幅图像的特征联合处理,进行细粒度分类,是解决这一复杂问题的主要方法。

信息区域有助于更好地表征物体,因此将信息区域的特征与全图像融合将获得更好的性能

因此,目标是局部化物体中信息最丰富的区域

创新点

  • 提出了一种新颖的多代理协作学习机制,无需边界框/部分注释即可准确识别图像中的信息区域。

  • 设计了一种新颖的损失函数,通过强制区域的信息性和成为真实类别的概率之间的一致性,使教师能够指导导航者定位图像中最有信息性的区域。

  • 模型可以端到端训练,在推理过程中提供准确的细粒度分类预测以及高度信息性的区域。

  • 在广泛的基准数据集上实现了最先进的性能。

自监督学习机制

NTS-Net模型通过自监督学习机制在无需边界框或部分注释的情况下定位信息性区域。该机制基于区域的信息量与其成为真实类别的概率之间的内在一致性。Navigator网络预测每个区域的信息量,而Teacher网络评估每个提议区域属于真实类别的概率。通过新颖的排序一致性损失函数,Navigator在Teacher的指导下检测最有信息量的区域。

实验结果

实验在CUB-200-2011、Stanford Cars和FGVC Aircraft等广泛使用的细粒度图像分类基准数据集上进行。实验结果显示,NTS-Net在这些数据集上达到了最先进的性能,无需使用任何边界框或部分注释。具体来说,在CUB-200-2011数据集上,NTS-Net的top-1准确率达到了87.5%,在FGVC Aircraft上达到了91.4%,在Stanford Cars上达到了93.9%。

论文贡献

  • 提出了一种新颖的多代理协作学习方案,用于细粒度分类任务。

  • 设计了一种新颖的损失函数,确保区域的信息性和成为真实类别的概率之间的一致性。

  • 实现了模型的端到端训练,并在推理过程中提供了准确的细粒度分类预测以及高度信息性的区域。

与其他方法的比较

NTS-Net与其他细粒度分类方法相比,具有明显的优势,尤其是在不依赖边界框或部分注释的情况下。它通过自监督的方式有效地定位信息性区域,并通过多代理合作学习方案提高了分类的准确性。与其他方法相比,NTS-Net在相同的数据集上取得了更高的准确率,显示出其强大的性能。

应用场景

NTS-Net模型的潜在应用场景包括但不限于生物多样性研究、医学图像分析、工业产品分类等。在生物多样性研究中,它可以用于自动识别和分类物种,有助于生态学家和保护生物学家的研究。在医学图像分析中,它可以辅助识别和分类不同的细胞或组织类型,从而提高诊断的准确性。

未来工作

基于NTS-Net模型,未来的工作可能包括进一步优化模型结构以提高效率和准确性,探索更多的自监督学习机制,以及将模型扩展到更广泛的应用场景。此外,研究者可以探索如何将NTS-Net与其他类型的神经网络或机器学习模型结合,以实现更全面的特征学习和更好的泛化能力。

结论

论文所提出的方法无需边界框/部分注释即可实现细粒度分类,三个网络(导航者、教师和审查者)相互协作和加强,通过新颖的损失函数考虑了区域信息性和成为真实类别概率之间的顺序一致性。算法可以端到端训练,并在CUB-200-2011、FGVC Aircraft和Stanford Cars数据集上取得了最先进的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/433943.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如果再回到从前——备忘录模式

文章目录 如果再回到从前——备忘录模式如果再给我一次机会……游戏存进度备忘录模式备忘录模式基本代码游戏进度备忘 如果再回到从前——备忘录模式 如果再给我一次机会…… 时间:5月6日18点  地点:小菜、大鸟住所的客厅  人物:小菜、…

VSCode开发Vue3+TS项目中遇到各种波浪线(诊断信息)

一、问题汇总 在使用Visual Studio Code(VSCode)开发Vue3 TypeScript项目时,会遇到各种波浪线错误(诊断信息),这些问题或错误通常由以下几人原因引起的: 1.1 常见问题 1、typeScript配置问题…

计算机的错误计算(一百零六)

摘要 探讨含有变元负的整数次方的多项式的计算精度问题。 计算机的错误计算(一百零五)给出了一个传统多项式的错误计算案例;本节探讨含有变元负的整数次方的多项式的计算精度问题。 例1. 已知 计算 若在Python下计算,则有&…

Pencils Protocol上线 Vaults 产品,为 $DAPP 深入赋能

Pencils Protocol 是 Scroll 生态一站式综合收益平台,该平台以 DeFi 功能作为抓手,基于 Farming、Vaults、Auction 等功能不断向 LRT、LaunchPad、AI、FHE、RWA 等领域深入的拓展。 近期 Pencils Protocol 生态不断迎来重磅进展,一个是 $DAPP…

【Java】类型转换 —— 自动转换、强制转换与表达式类型自动提升

1.自动类型转换 Java中的自动类型转换就好比将小瓶水倒入到大瓶的换装过程。我们将小瓶水倒入到大瓶中时,由于小瓶的容量比大瓶的容量小,所以倒入的水永远不可能溢出大瓶。同样,在Java中,将取值范围小的数据类型的变量…

Django 配置邮箱服务,实现发送信息到指定邮箱

一、这里以qq邮箱为例,打开qq邮箱的SMTP服务 二、django项目目录设置setting.py 文件 setting.py 添加如下内容: # 发送邮件相关配置 EMAIL_BACKEND django.core.mail.backends.smtp.EmailBackend EMAIL_USE_TLS True EMAIL_HOST smtp.qq.com EMAIL…

2024新版IDEA创建JSP项目

1. 创建项目 依次点击file->new->Project 配置如下信息并点击create创建项目 2. 配置Web项目 点击file->Project Structure 在点击Project Settings->Module右键右边模块名称->ADD->Web 点击Create Artifact 出现如下界面就表示配置完毕,…

基于PHP+MySQL组合开发地方门户分类信息网站源码系统 带完整的安装代码包以及搭建部署教程

系统概述 随着互联网技术的飞速发展,地方门户分类信息网站逐渐成为城市生活不可或缺的一部分。它们涵盖了房产、招聘、二手交易、生活服务等多个领域,为当地居民提供了全方位的信息服务。为了满足这一市场需求,我们开发了这款基于PHPMySQL的…

videojs 播放mp4视频只有声音没有画面问题

在使用Video.js播放MP4视频时,如果遇到只有声音没有画面的情况,这通常与视频文件的编码格式、浏览器兼容性或Video.js的配置有关。以下是一些可能的解决步骤和原因分析: 1. 检查视频编码 MP4视频支持多种编码格式,但并非所有编码…

【移植】一种快速移植OpenHarmony Linux内核的方法

往期知识点记录: 鸿蒙(HarmonyOS)应用层开发(北向)知识点汇总 鸿蒙(OpenHarmony)南向开发保姆级知识点汇总~ 持续更新中…… 移植概述 本文面向希望将 OpenHarmony 移植到三方芯片平台硬件的开…

旺店通ERP集成金蝶K3(旺店通主供应链)

源系统成集云目标系统 金蝶K3介绍 金蝶K3是一款ERP软件,它集成了供应链管理、财务管理、人力资源管理、客户关系管理、办公自动化、商业分析、移动商务、集成接口及行业插件等业务管理组件。以成本管理为目标,计划与流程控制为主线,通过对成…

Battery management system (BMS)

电池管理系统(BMS)是一种专门用于监督电池组的技术,电池组由电池单元组成,在电气上按照行x列矩阵配置进行排列,以便在预期的负载场景下,在一段时间内提供目标范围的电压和电流。 文章目录 电池管理系统是如…

数据分析工具julius ai如何使用

什么是julius ai Julius AI 是一款强大的ai数据分析工具。用户可以使用excel、数据库、文本文件等多种格式的数据,Julius AI 会自动分析这些数据并提供详细的解释和可视化图表。官网显示它目前已经有三十万用户。它也支持手机版。 虽然openai也支持生成图表&#xf…

开放原子开源基金会OPENATOM

AtomGit_开放原子开源基金会代码托管平台-AtomGit 开放原子开源基金会是致力于推动全球开源事业发展的非营利机构,于 2020 年 6 月在北京成立,由阿里巴巴、百度、华为、浪潮、360、腾讯、招商银行等多家龙头科技企业联合发起。 精选项目: 比…

PPT 快捷键使用、技巧

前言: 本文操作是以office 2021为基础的,仅供参考;不同版本office 的 ppt 快捷键 以及对应功能会有差异,需要实践出真知。 shift 移动 水平/垂直 移动 ; shift 放大/缩小 等比例放大 缩小 ; 正圆 正…

scrapy爬虫基础

一、初识 创建项目: scrapy startproject my_one_project # 创建项目命令 cd my_one_project # 先进去, 后面在里面运行 运行爬虫命令为:scrapy crawl tk spiders下创建test.py 其中name就是scrapy crawl tk &…

关于文本压缩传输gzip

import gzip import base64 # 假设我们有一个文本文件要读取和压缩 input_filename 2.json # 我们将Base64编码的gzip压缩数据写入这个文件 output_filename 2.json.base64 # 读取文本文件内容(假设文件是UTF-8编码的) with open(input_fi…

U盘打开提示要格式化:深度剖析、恢复策略与预防指南

U盘打开提示要格式化现象阐述 在日常的数字生活中,U盘作为便携式存储设备的代表,扮演着不可或缺的角色。然而,不少用户都曾遭遇过这样一个令人头疼的问题:当满怀期待地插入U盘,准备访问其中存储的数据时,系…

【AI基础】pytorch lightning 基础学习

传统pytorch工作流是首先定义模型框架,然后写训练和验证,测试循环代码。训练,验证,测试代码写起来比较繁琐。这里介绍使用pytorch lightning 部署模型,加速模型训练和验证,记录。 准备工作 1 安装pytorch…

基于Hive和Hadoop的保险分析系统

本项目是一个基于大数据技术的保险分析系统,旨在为用户提供全面的汽车保险信息和深入的保险价格分析。系统采用 Hadoop 平台进行大规模数据存储和处理,利用 MapReduce 进行数据分析和处理,通过 Sqoop 实现数据的导入导出,以 Spark…