HIPT论文阅读

题目《Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning》

论文地址:[2206.02647] Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning

项目地址:mahmoodlab/HIPT: Hierarchical Image Pyramid Transformer - CVPR 2022 (Oral)

Abstract:

        视觉变换器(ViTs)及其多尺度和层次变体在捕获图像表示方面取得了成功,但它们通常被研究用于低分辨率图像(例如256×256,384×384)。对于计算病理学中的千兆像素全切片成像(WSI),WSIs的尺寸可以大至150000×150000像素,在20倍放大倍数下,展现出不同分辨率下的视觉标记的层次结构:从16×16的图像捕获单个细胞,到4096×4096的图像表征组织微环境中的相互作用。我们引入了一种新的ViT架构,称为层次图像金字塔变换器(HIPT),它利用WSI中固有的自然层次结构,通过两级自监督学习来学习高分辨率图像表示。HIPT在33种癌症类型上进行了预训练,使用了10,678个千兆像素WSIs、408,218个4096×4096图像和1.04亿个256×256图像。我们在9个幻灯片级别的任务上对HIPT表示进行了基准测试,并证明了:1)具有层次预训练的HIPT在癌症亚型和生存预测方面超越了当前的最先进方法,2)自监督ViTs能够对肿瘤微环境中表型层次结构的重要归纳偏差进行建模。

Introduction:

        在20×目标下扫描WSIs,结果是一个大约每像素0.5微米的固定尺度,允许对视觉元素进行一致的比较,这可能揭示了超出正常参考范围的重要组织形态学特征。此外,WSIs在20×放大倍数下还展现出不同图像分辨率下的视觉标记的层次结构:

16×16的图像包含细胞和其他细粒度特征(基质、肿瘤细胞、淋巴细胞)[23, 37],

256×256的图像捕获细胞间相互作用的局部簇(肿瘤细胞性)[2,8,31,60],

1024×1024-4096×4096的图像进一步表征细胞簇之间的宏观相互作用及其在组织中的组织(描述肿瘤浸润与肿瘤远端淋巴细胞的肿瘤-免疫定位程度)[1, 10],

最后,整个肿瘤内部异质性在WSI的幻灯片级别上描绘[5,36,40,58,65]。本工作测试的假设是,在自监督学习中合理利用这一层次结构可以产生更好的幻灯片级表示。

在HIPT中:

1)我们将学习WSI的良好表示问题分解为通过自监督学习可以学习的层次相关表示;

2)我们使用学生-教师知识蒸馏(DINO[14])在高达4096×4096的区域上对每个聚合层进行预训练。我们将HIPT应用于在20×分辨率下提取的千兆像素组织病理图像的学习表示任务。

Related work:

1、在WSIs中的多重实例学习。 在一般的基于集合的深度学习中,Edwards & Storkey和Zaheer等人提出了第一个在基于集合的数据结构上操作的网络架构,Brendel等人证明了“特征包”能够在ImageNet上达到高精度[11,26,82]。与此同时,在病理学领域,Ilse等人将基于集合的网络架构扩展为组织学感兴趣区域的多重实例学习的方法,Campanella等人后来在千兆像素WSIs上扩展了端到端的弱监督[13,39]。Lu等人证明了通过使用在ImageNet上预训练的ResNet-50编码器进行实例级特征提取,只需要训练一个全局池化操作器就可以用于弱监督的幻灯片级任务[54]。在Lu等人之后,有许多MIL的变体适应了图像预训练技术,如VAE-GANs、SimCLR和MOCO作为实例级特征提取[46,64,86]。最近的MIL变体也发展到扩展聚合层和评分函数[18,66,70,77,79,80,87]。Li等人提出了一个多尺度MIL方法,该方法在20×和5×分辨率下进行斑块切割和自监督实例学习,然后对斑块进行空间解析对齐[46]。在WSIs中整合放大目标的工作也在其他工作中跟进[30,33,57,59],然而,我们注意到跨目标结合视觉标记不会共享相同的尺度。在这项工作中,斑块切割是在单一放大目标下完成的,使用更大的斑块尺寸来捕获宏观形态特征,我们希望这将有助于重新思考WSIs的上下文建模。(红色是核心创新点)

2、视觉变换器和图像金字塔。 Vaswani等人的开创性工作不仅在语言建模方面取得了显著发展,也在通过视觉变换器(ViTs)进行图像表示学习方面取得了进展,其中256×256的图像被构建为[16×16]视觉标记的图像补丁序列[24,71,73]。受多尺度、金字塔式图像处理的启发[12,43,63],最近在ViT架构开发中的进展集中在效率和多尺度信息的整合上(例如- Swin, ViL, TNT, PVT, MViT),以解决视觉标记的不同尺度/纵横比问题[28,32,52,74,83]。与病理学相比,我们强调如果图像尺度在给定放大倍数下是固定的,那么学习尺度不变性可能不是必要的。与我们的工作类似的是NesT和Hierarchical Perciever,它们同样通过Transformer块从非重叠的图像区域分割然后聚合特征[15,85]。一个关键的区别是我们展示了每个阶段的ViT块可以单独预训练,用于高分辨率编码(高达4096×4096)。

Method:

Result:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/493523.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[ESP]从零开始的Arduino IDE安装与ESP环境配置教程

一、前言 最近也是在比赛方面比较忙,没有更多的时间和精力去更新长文章了。这几周都更倾向于环境搭建的教程,这类教程写起来确实方便,也不怎么费时间,一个下午基本可以搞定,哈哈,我保证不是在为自己想摆烂找…

投标心态:如何在“标海战术”中保持清醒的头脑?

在竞争激烈的市场环境下,“标海战术”——即大规模参与投标——已经成为许多企业争取市场份额的重要策略。然而,盲目追求投标数量可能导致资源浪费、团队疲劳以及战略目标的模糊化。在这种高强度的竞争模式中,如何保持清醒的头脑,…

wxWidgets使用wxStyledTextCtrl(Scintilla编辑器)的正确姿势

开发CuteMySQL/CuteSqlite开源客户端的时候,需要使用Scintilla编辑器,来高亮显示SQL语句,作为C/C领域最成熟稳定又小巧的开源编辑器,Scintilla提供了强大的功能,wxWidgets对Scintilla进行包装后的是控件类:…

【原生js案例】让你的移动页面实现自定义的上拉加载和下拉刷新

目前很多前端UI都是自带有上拉加载和下拉刷新功能,按照官网配置去实现即可,比如原生小程序,vantUI等UI框架,都替我们实现了内部功能。 那如何自己来实现一个上拉加载和下拉刷新的功能? 实现效果 不用浏览器的css滚动条,自定义实现滚动效果 自定义实现滚动,添加上拉加载…

批处理理解

初识批处理 如何批处理: 命名:.bat 方法:创建一个记事本文件,然后将其扩展改为.bat 批处理作用:自上而下成批处理每一条DOS命令,直到执行到最后一条。运行环境:当然是我们cmd了 回归我学过的…

APM32F411使用IIS外设驱动es8388实现自录自播

前言: 从零开始学习I2s外设,配置Es8288寄存器实现录音播放。本文章使用主控芯片是APM32F411系类。音频相关的概念比较多,就不再次做过多的介绍,本文章只是简单实现边录边播功能。APM系类兼容st的芯片,所以用st的hal库来…

OB删除1.5亿数据耗费2小时

目录 回顾:mysql是怎么删除数据的? 删除方案 代码实现 执行结果 结论 本篇是实际操作 批量处理数据以及线程池线程数设置 记录学习 背景:有一张用户标签表,存储数据量达4个亿,使用OceanBase存储,由于…

20241217使用M6000显卡在WIN10下跑whisper来识别中英文字幕

20241217使用M6000显卡在WIN10下跑whisper来识别中英文字幕 2024/12/17 17:21 缘起,最近需要识别法国电影《地下铁》的法语字幕,使用 字幕小工具V1.2【whisper套壳/GUI封装了】 无效。 那就是直接使用最原始的whisper来干了。 当你重装WIN10的时候&#…

linux普通用户使用sudo不需要输密码

1.root用户如果没有密码,先给root用户设置密码 sudo passwd root #设置密码 2.修改visudo配置 su #切换到root用户下 sudo visudo #修改visudo配置文件 用户名 ALL(ALL) NOPASSWD: ALL #下图所示处新增一行配置 用户名需要输入自己当前主机的用户名

【C++11】可变模板参数

目录 可变模板的定义方式 参数包的展开方式 递归的方式展开参数包 STL中的emplace相关接口函数 STL容器中emplace相关插入接口函数 ​编辑 模拟实现:emplace接口 C11的新特性可变参数模板能够让您创建可以接受可变参数的函数模板和类模板,相比 C9…

python 曲线拟合,曲线拟合交点

目录 效果图: 源代码: 效果图: 源代码: import json import os import shutilimport cv2 import numpy as npfrom numpy.polynomial.polynomial import Polynomialdef calculate_distance(x1, y1, x2, y2):return np.sqrt((x2 - x1) ** 2 + (y2 - y1) ** 2)def get_new_g…

Java模拟Mqtt客户端连接Mqtt Broker

Java模拟Mqtt客户端基本流程 引入Paho MQTT客户端库 <dependency><groupId>org.eclipse.paho</groupId><artifactId>org.eclipse.paho.mqttv5.client</artifactId><version>1.2.5</version> </dependency>设置mqtt配置数据 …

圣诞快乐(h5 css js(圣诞树))

一&#xff0c;整体设计思路 圣诞树h5&#xff08;简易&#xff09; 1.页面布局与样式&#xff1a; 页面使用了全屏的黑色背景&#xff0c;中央显示圣诞树&#xff0c;树形由三层绿色的三角形组成&#xff0c;每一层的大小逐渐变小。树干是一个棕色的矩形&#xff0c;位于三角…

多音轨视频使用FFmpeg删除不要音轨方法

近期给孩子找宫崎骏动画&#xff0c;但是有很多是多音轨视频但是默认的都是日语&#xff0c;电视上看没办法所以只能下载后删除音轨文件只保留中文。 方法分两步&#xff0c;先安装FFmpeg在转文件即可。 第一步FFmpeg安装 FFmpeg是一个开源项目&#xff0c;包含了处理视频的…

时空信息平台架构搭建:基于netty封装TCP通讯模块(IdleStateHandler网络连接监测,处理假死)

文章目录 引言I 异步TCP连接操作II 心跳机制:空闲检测(读空闲和写空闲)基于Netty的IdleStateHandler类实现心跳机制(网络连接监测)常规的处理假死健壮性的处理假死方案引言 基于netty实现TCP客户端:封装断线重连、连接保持 https://blog.csdn.net/z929118967/article/de…

中国新能源汽车公共充电桩数据合集(2002-2023年)

数据来源&#xff1a;全国各省市统计年鉴、统计公报、国家能源署、中国汽车行业协会&#xff0c;各类汽车统计年鉴、中国电动汽车充电基础设施促进联盟等 时间跨度&#xff1a;新能源汽车数据集&#xff1a;2002-2023年&#xff08;不同数据时间跨度有差异&#xff0c;详见数据…

设计模式12:状态模式

系列总链接&#xff1a;《大话设计模式》学习记录_net 大话设计-CSDN博客 参考&#xff1a;设计模式之状态模式 (C 实现)_设计模式的状态模式实现-CSDN博客 1.概述 状态模式允许一个对象在其内部状态改变时改变其行为。对象看起来像是改变了其类。使用状态模式可以将状态的相…

国内网络在Ubuntu 22.04中在线安装Ollama并配置Open-WebuiDify

配置docker科技网络 登录后复制 创建或编辑 Docker 配置文件 让docker使用代理&#xff1a; sudo mkdir /etc/systemd/system/docker.service.d -p sudo vim /etc/systemd/system/docker.service.d/http-proxy.conf 文件&#xff0c;并添加以下内容&#xff1a; [Service] En…

【线性代数】理解矩阵乘法的意义(点乘)

刚接触线性代数时&#xff0c;很不理解矩阵乘法的计算规则&#xff0c;为什么规则定义的看起来那么有规律却又莫名其妙&#xff0c;现在参考了一些资料&#xff0c;回过头重新总结下个人对矩阵乘法的理解&#xff08;严格来说是点乘&#xff09;。 理解矩阵和矩阵的乘法&#x…

国标GB28181协议平台Liveweb:搭建建筑工地无线视频联网监控系统方案

随着科技高速发展&#xff0c;视频信号经过数字压缩&#xff0c;通过互联网宽带或者移动4G网络传递&#xff0c;可实现远程视频监控功能。将这一功能运用于施工现场安全管理&#xff0c;势必会大大提高管理效率&#xff0c;提升监管层次。而这些&#xff0c;通过Liveweb监控系统…