学习遥感大模型(1)

借着课程作业的机会学习了一些遥感大模型相关的工作,现总结一下

根据非盈利组织忧思科学家联盟(The Union of Concerned Scientists),截止20231月,全球对地观测卫星在轨数目已超过1000颗。大量的对地观测卫星很大程度解决遥感数据匮乏的困境,随之而生的问题是海量遥感大数据需要更加智能的自动分析算法。近年来,人工智能技术,特别是深度学习,极大地赋能遥感智能解译,广泛应用于建筑物提取、道路提取、土地利用制图等任务。此类数据驱动的方法在精度和速度方面证明了优越性,但往往被诟病弱泛化性和需要人工标注大量样本训练。随着人工智能领域发生巨大变革,大数据催生大模型,ChatGPTSAM的涌现为遥感智能解译领域带来新的启发,能否基于海量遥感数据无监督地训练一个参数量巨大的强泛化性模型作为底座,通过极低成本的适配来服务于各个下游任务?

本文将总结领域内部分现有的工作,分别介绍生成式自监督学习、对比式自监督学习这两种遥感大模型的构建方式。

为什么要自监督学习?

大模型技术很大程度受益于标度律(Scaling Law),即模型架构不变下,一定范围内增加训练数据规模,模型表现和数据规模成幂律关系。因此如果想要训练出强力的遥感大模型,其预训练方法大概率是无监督的,因为如果采取监督学习的范式,需要更加海量标注遥感数据集,这是非常困难的。

事实上,也正如计算机视觉和自然语言处理领域里所发生的一样,许多遥感大模型采用无监督学习中的一派方法——自监督学习,即它利用数据本身的内在结构或特征进行训练,而无需人工标记的监督信号。与传统的监督学习不同,自监督学习从无标签的数据中自动学习特征表征,然后利用这些表征来解决其他任务。

基于生成式自监督学习的遥感大模型

1)掩码图像重建

图1:基于自监督学习的遥感大模型[1]

受计算机视觉领域中的掩码图像建模MIM(Masked Image Modeling)启发,如图1所示,[1]对输入图像进行掩码操作。掩码操作是将图像的一部分区域遮挡或隐藏起来,使得模型只能观察到部分图像信息。在进行掩码设置后,模型需要根据观察到的部分图像信息来预测掩码区域的特征。在预测掩码区域的特征后,模型使用损失函数来衡量预测结果与真实值之间的差异,利用误差反向传播更新模型,这样可以学习到图像的有用特征表示。这些特征表示可以在下游任务中进行迁移学习,例如图像分类、目标检测或语义分割等任务。

此外,[1]在ViT(Vision Transformer)基础上引入了一个可学习的旋转机制,用于学习具有不同方向角度的可变尺寸窗口,并在这些窗口内计算注意力。这一设计适用于处理遥感影像中的各种各样朝向的物体,使得从生成的窗口中提取丰富的上下文信息,并学习更好的特征表示。

基于提出的设计,[1]在数据集MillionAID上训练参数上亿的遥感大模型,并通过实验显现了对下游任务的迁移能力,分为场景分类、语义分割、目标检测。其出色的迁移能力体现在微调时相比其他模型使用更少的数据取得更好的表现和同等条件的微调完成后更优秀的模型表现。

2)不完全掩码图像重建

相比自然图像,遥感影像由于特殊的成像机制,背景更加复杂且存在许多小目标。如果直接采用计算机视觉领域的掩码图像建模方法,很可能会丢失小目标的信息,导致重建图像过程中缺乏关键的信息,增大了难度。为此,[2]提出了一种更加适用于遥感大模型训练的掩码策略,如图2左侧所示,他们不完全遮盖图像,而是随机保留一些像素在被遮盖的图像块中。[2]通过这种遮盖策略,从而有效地保留一些小目标的像素信息。

图2:RingMo[2]提出一种不完全遮盖策略
图2:RingMo[2]提出一种不完全遮盖策略

 3)时序影像&多光谱影像的掩码图像重建

随着传感器技术升级和卫星数量增多,多光谱影像或是同一地点的不同时间影像也有了充足的积累。针对这一条件,[3]在MAE[4]基础上进行改进,提出了SatMAE训练方法,如图3。

在日常视频数据中,帧与帧之间通常是等间隔的。然而,在遥感领域,卫星图像时间序列是在不规则的时间点上拍摄给定位置的多个快照或版本组合形成的。这些卫星图像序列的长度和采样频率在不同年份以及不同地区差异巨大。为充分利用时序信息,[3]对时间序列中的提出时序位置编码,同时对每一张卫星图像进行独立遮盖使得模型学习到时间维度上的关联,最后时序位置编码、空间位置编码、图像块三者一同送入自编码器训练。

自然图像通常只有RGB三个波段。然而,卫星数据通常可以具有多个光谱波段。例如,Sentinel-2卫星图像具有13个波段,分别具有10米、20米和60米的空间分辨率,并且每个波段具有不同的波长。如果简单堆叠光谱送入网络,单个特征提取器无法充分捕捉具有不同波长和空间分辨率的多个波段中存在的细粒度信息。因此,SatMAE采用了分组光谱编码的策略,基于先验知识,划分多个组(例如根据波长划分3组:RGB+NIR,SWIR,红边),针对不同分组采用不同的特征提取器。此外,他们还引入了一个光谱分组位置编码,最后光谱分组位置编码、空间位置编码、图像块三者一同送入自编码器训练。

图3:基于多光谱/时间序列卫星影像自监督学习的SatMAE[3]

基于对比式自监督学习的遥感大模型

简单来说,对比式自监督学习是基于对比学习技术,通过判断一对图像是相似还是不同这一代理任务优化模型表征能力。在对比学习中,相似的图像对被称为正样本对,不同的图像对被称为负样本对。通常地,正样本对是通过对同一图像应用不同的人工增强构成的,而负样本对是两张不同的图像构成的。在获取正负样本对之后,使用精心设计的损失函数来训练模型,最小化正样本对之间的距离,并最大化负样本对之间的距离。

1)针对季节变化构建正负样本对

基于对比式自监督学习的遥感大模型需要基于遥感领域特色,构建正负样本对。针对卫星重访这一特性,SeCo[5]认为时序维度提供了一种自然变化的额外来源,与图像的人工增强相互补充。例如,任何形式的人工增强都无法展示雪山顶在雪融化后的样子,或者作物在不同季节的不同阶段如何变化。

图4:基于不同季节图像对比学习的预训练方法SeCo[5]

如图4所示,SeCo将同一地点不同时间的卫星图像q,k2,以及对q进行常见的增强处理(如色彩抖动,高斯模糊等)得到的k2,又不同时间又增强处理的k1,使用一个共享权重的特征提取器f抽取特征,随后将其投影到不同的嵌入子空间中,这些子空间内对时间具有变化或不变性。在不同优化不同嵌入子空间时,特征提取器f获得的共享特征将被引导学习到包含时间变化和不变的特征,这些特征将有效地传递到遥感下游任务中,无论它们是否涉及时序变化。同时,如果具备下游任务的先验知识,例如已知模型要迁移到变化检测任务中,而变化检测常常会被影像因季节变化导致的差异所干扰,则可使用具有时间不变性的嵌入子空间的特征。

2)针对SAR-光学不同模态构建正负样本对

针对遥感传感器成像机理多样这一特性,[6]设计了一种多模态(SAR-光学)对比学习范式,如图5所示。多模态对比学习使网络能够从不同的模态中学习互补信息,也就是说,它允许每个模态学习在其他模态中更明显可区分的特征,同时保留原始模态的特征。

图5:基于不同模态图像对比学习的预训练方法[6]

3)针对可见光影像-Caption构建正负样本对

如图6,受到CLIP模型[8]启发,RemoteCLIP[9]基于现有的遥感数据集生成与每张遥感影像匹配的文本,基于海量遥感影像-文本对训练CLIP模型,学习稳健视觉特征的同时学习与视觉特征对齐的文本特征,从而使学习到的对齐视觉-语言表示可以无缝应用于不同的下游任务和领域,展现出色的零样本能力。

图6:基于图像-文本对比学习的遥感大模型[9]

小结

遥感大模型的构建过程中是期望做到下游任务无关的,这保证了泛化性和迁移到各类下游任务的能力。人工智能技术的飞速发展驱动遥感大模型技术不断升级,作为变化检测、地物分类等下游任务的公共底座,理想的遥感大模型还应该具备以下特性:

1)处理来自不同传感器的遥感影像(不同的空间或光谱分辨率);

2)考虑到影像的地理位置和拍摄时间;

3)在不同的地貌和天气下良好工作,进行鲁棒的特征提取。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/45339.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

影像组学 - pyradiomics库 - 入门1

目录 一、了解 影像组学 影像组学是什么(引用一下chatgpt的解释) 影像组学的基本步骤 影像组学的作用与价值 影像组学有哪些特征 二、了解 pyradiomics pyradiomics是什么 pyradiomics使用步骤 pyradiomics的作用与价值 三、正文开始&#xff…

网络安全数据集介绍

目录 1、KDD99 入侵检测数据集 2、NSL KDD 入侵检测数据集 3、UNSW_NB15 入侵检测数据集 4、NASA MDP 软件缺陷数据集 5、CNNVD 软件安全漏洞数据集 6、NVD 软件安全漏洞数据集 1、KDD99 入侵检测数据集 该数据集是从一个模拟的美国空军局域网上采集来的9个星期的网络连…

unsw计算机专业排名,新南威尔士大学UNSW计算机科学Computer Science专业排名第54位(2021年THE世界大学商科排名)...

2021年THE泰晤士高等教育计算机科学Computer Science专业世界大学排名公布,新南威尔士大学UNSW计算机科学世界排名第54位,新南威尔士大学UNSW计算机科学专业实力怎么样呢?下面美英港新留学介绍新南威尔士大学UNSW计算机科学专业培养计划,新南威尔士大学UNSW计算机科学专业研…

[当人工智能遇上安全] 7.基于机器学习的安全数据集总结

您或许知道,作者后续分享网络安全的文章会越来越少。但如果您想学习人工智能和安全结合的应用,您就有福利了,作者将重新打造一个《当人工智能遇上安全》系列博客,详细介绍人工智能与安全相关的论文、实践,并分享各种案…

找到一个好用的在线创意英文logo设计生成器网站

smashinglogo.com这个在线一键式生成LOGO的网站可以尝试下,输入品牌词和slogan可以无限生成logo。 下面简单举个例子,给大家看一下效果。假设要给Tesla生成一个logo,可以把品牌词写成Tesla,slogan我随便编了一句: jou…

请不要随便走上编程这条路

“互联网的黄金十年已经结束,接下来的十年是白银十年”。这话还是在2016年看到的,当时本人有些沮丧,毕竟还没找到实习的公司。 怎么说呢,在去年,也就是2015年的时候,不敢说别的,大部分互联网专业…

IC工程师简历制作全解读

前言 越来越觉得一份好简历真的很重要! 本文基于下面这个视频记录所得:那个拿35万offer的IC设计应届生简历是这么写的 IC工程师应届生薪资 工艺制造、封测方向——本科/专科:5000-8000元/月,硕士:8000-12000元/月设计方向——本科/专科:6000-1000元/月,硕士:1w5-2w元…

为什么有人说C++是最难学的编程语言? (4个回答)

从事嵌入式开发多年,有三种语言玩的比较多C/C java,从编程语言的难度来讲C是最难得,而且也是最难入门的编程语言,很多编程老手都是这个结论,为什么C是最难学的编程语言,虽然难学但还是很多编程老手喜欢研究它&#xff…

自学编程的人,90%以上都会掉进这些坑,避开这些误区能提高N倍学习效率

前言 几乎每一个程序员都会走上那么一段自学的道路,尤其是在校生或进入工作岗位之后,技术的提升基本都靠自学,有的虽然是网上报班学习,但更多时候还是自己在学习,师傅引进门,修行靠个人。 有的人自学很快…

30岁开始学编程晚吗?

二哥,说出来不怕你笑话,我和你年纪差不多。之前是干别的,但有点编程的基础,最近想转行程序员,不知道晚不晚,你能不能给我一些建议,或者说有没有一些攻略可以参考。 这是上个月一个读者小郑私信我…

机械专业转行IT行业,成功自学Java上岸(分享转行使)

秋招转眼就结束了,将近一年的努力,总算给了自己一个比较满意的结果。写下这篇贴子记录自己的转行以及秋招经历。 其实在转行初期,就无数次幻想着秋招结束,然后写一篇长长的经验贴的那种满足感。下面我尽量把我知道的,…

该如何从教育行业转行做IT——我的真实经历给出的偏门答案

“我需要,最狂的风,和最静的海。”——顾城 本文是对想要入行IT,但是没时间没钱上IT培训班的小伙伴的一些小小的建议,我即将要说的是最近发生在我自己身上的事,这些可以成为“如何转行IT”的一个偏门的答案&#xff0…

编程行业未来趋势如何

随时互联网不断的发展,编程技术不断的优化、成熟,编程行业未来趋势如何一直是热议的话题。 未来数字化,虚拟化,数据化的方向,就是说精神上的追求会成为一大消费趋势,看现在人们使用手机,玩电脑的…

这样学编程,直接原地起飞啊!

大家好,我是二哥呀。 今天来给大家分享一些学习编程的心得,真的颠覆了我以前对学习编程的刻板印象,可以这么说,如果你恰好处在大学阶段,看到了这篇内容,OK,恭喜你,如果你能按照我说…

学好编程的 4 个秘诀

你好呀,我是沉默王二,一枚沉默但有趣又帅气的程序员(你听,耳边是不是响起了装逼的声音)。今天我来掏心掏肺地聊聊学好编程的 4 个秘诀,应该会对你产生一些微妙而又积极的影响。 闭上眼睛转个圈&#xff0c…

盘点关于程序员的10个有趣的段子

(1)程序员的读书历程:x 语言入门 —> x 语言应用实践 —> x 语言高阶编程 —> x 语言的科学与艺术 —> 编程之美 —> 编程之道 —> 编程之禅—> 颈椎病康复指南。 (2)程序员最讨厌的四件事&#…

Unity角色扮演游戏集合

Unity角色扮演游戏集合 Aurora Trail A new epic game where the perspective of the camera changes everything. Do not let your body parts get in the same view as a wall with the same color, or you’ll lose it! Puzzle your way through challenging and appealing…

html下拉 小狗,html会动的小狗狗源码

一个纯html和css结合构建的会动的狗狗,适合自己去慢慢研究的页面,前端程序员们适合收藏哦~这样对我们的html和css技术提升也有所帮助哦! html会动的小狗狗源码:dog @-webkit-keyframes head {0% {-webkit-transform: rotate(0); transform: rotate(0); } 6.66667% {-webkit…

如何写一首让人膜拜的代码情诗?

1、木有女票?先放上一段来自(潘*扬)的神奇代码,助你快速脱单: //快速脱单代码 private static final THE_ONE ; ResultSet peopleInfoSet China.getPeople(); //获取全国人民的信息 while(peopleInfoSet.next()) { Per…

Android访问权限大全

访问权限图 权限的目的是为了保护Android用户的隐私。Android应用程序必须请求允许访问敏感用户数据(如联系人和 SMS),以及某些系统特征(如摄像头和 Internet)。根据该特征,系统可以自动授予许可&#xff…