【2024|滑坡数据集论文解读3】CAS滑坡数据集：用于深度学习滑坡检测的大规模多传感器数据集

文章目录

【2024|滑坡数据集论文解读3】CAS滑坡数据集：用于深度学习滑坡检测的大规模多传感器数据集
3. Data Records
4. 技术验证
- 4.1 CAS滑坡数据集的验证
- 4.2 数据集质量控制的验证
- 4.3 深度学习滑坡数据集的对比实验
5. 使用说明

欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！
祝所有的硕博生都能遇到好的导师！好的审稿人！好的同门！顺利毕业！

大多数高校硕博生毕业要求需要参加学术会议，发表EI或者SCI检索的学术论文会议论文：
可访问艾思科蓝官网，浏览即将召开的学术会议列表。会议入口：https://ais.cn/u/mmmiUz

论文链接：https://www.nature.com/articles/s41597-023-02847-z

3. Data Records

CAS滑坡数据集已上传至Zenodo平台【56】，旨在对所有从事滑坡研究的科研人员和专业人士开放并可访问。与本研究相关的数据可从该仓库获取，其中包含名为“CAS滑坡数据集”的项目文件、README文件、研究区的shp文件以及16个代表不同子数据集的压缩文件。每个子数据集由三个子文件夹组成：img（影像）、label（标签）和mask（掩膜）。值得注意的是，在mask文件中，滑坡区域被标记为1，非滑坡区域标记为0。

每个子数据集均由三个文件夹组成：img、label和mask。数据集中所有文件均为TIFF格式，分辨率为512 × 512像素。为了提供数据集关键参数的概览，这些参数已编入表4中，并与数据集一起上传。

在这里插入图片描述

4. 技术验证

在训练过程中，DeeplabV3+、U-net和MFFENet模型使用ResNet50作为基础骨干网络，而FCN则使用VGG16作为骨干网络。**在模型参数设置方面，我们的实现基于PyTorch框架，使用了SGD优化器，学习率为0.01，动量为0.9，权重衰减为0.0005。**由于滑坡识别涉及不平衡数据样本的问题，我们采用了Dice损失函数。值得一提的是，模型训练是在一张NVIDIA Tesla V100-SXM2 32GB显卡上进行的。

从遥感影像中提取滑坡信息通常被视为语义分割任务，其目标是将像素精确地分类为前景和背景两个类别。在此框架下，分割性能的评估通过量化交集区域（即真实正类TP像素的数量）和并集（即TP、假正类FP和假负类FN像素的总和）来进行。具体而言，TP对应于准确识别的滑坡像素，FP表示被错误分类为滑坡的像素（属于非滑坡），而FN则表示被错误分类为非滑坡的像素（属于滑坡）。

我们使用了六个典型的评估指标，即精确率（Precision）、召回率（Recall）、F1得分（F1 Score）、交并比（IoU）、平均交并比（mIoU）和总体准确率（Overall Accuracy, OA）。具体来说，精确率反映了模型的误报率，召回率则反映了模型的漏报率，而F1得分综合了这两个指标，得分越高，模型越好。IoU表示在检测图与真实情况之间的变化类重叠率，mIoU是所有类别IoU的平均值，它计算每个类别的IoU，然后取所有类别的平均值，mIoU提供了跨类别的综合检测性能衡量。OA是像素分类的总体准确率，反映了所有样本中被正确分类的比例，较高的OA意味着更准确的分类结果。上述六个指标的计算公式如下:
在这里插入图片描述

4.1 CAS滑坡数据集的验证

CAS滑坡数据集主要基于来自9个不同区域的无人机（UAV）和卫星（SAT）影像数据构建。为了验证数据集的质量，我们遵循Géron A.提出的方法，将每个子数据集随机按7:3的比例划分为训练集和验证集【57】。接着，我们在精心筛选的数据集上进行模型训练，这些数据包括来自UAV、SAT以及UAV与SAT组合的影像。我们在表5中列出了数据集的结果。

在我们的三个数据集中，FCN和U-Net模型表现良好，其mIoU值在72%到78%之间，F1得分在82%到87%之间。复杂的网络模型，如DeepLabv3+和MFFENet，表现出更为出色的结果，mIoU值在82%到90%之间，F1得分在89%到94%之间。这些结果强调了我们数据集的鲁棒性和潜力。在对比三个数据集时，我们发现UAV数据集在所有模型中的表现最佳，而卫星数据集的得分最低，表明其质量可能不如UAV数据集。这种模型性能差异可能归因于卫星影像质量低于UAV影像。然而，结合UAV和卫星数据集后，模型仍取得了良好的得分，显示出我们的数据集在无人机和卫星遥感影像领域的稳健性，同时为使用多传感器影像进行滑坡识别提供了宝贵的数据支持。此外，这也为后续大数据集的生成和大规模模型的训练奠定了基础。
在这里插入图片描述

4.2 数据集质量控制的验证

在本实验部分，我们验证了“构建数据集”部分中提到的质量控制方法。最初的SAT数据集来源于未经过滤的SAT数据集，而用于验证CAS滑坡数据集的SAT数据集则是经过筛选并最终发布的版本。实验结果如表6所示。通过对即将发布的数据集与原始版本的分析，显示出二者在性能上的显著差异。SAT数据集在多个关键指标上优于原始数据集，包括精确率（74.275% vs. 72.365%）、召回率（89.187% vs. 88.382%）、IoU（68.137% vs. 66.275%）、F1得分（89.675% vs. 88.759%）、mIoU（82.397% vs. 81.233%）以及总体准确率（96.881% vs. 96.457%）。这些结果表明，SAT数据集提供了更精确、可靠的标签，提升了分割性能。尽管我们总共剔除了1245张图像，但模型性能实际上有所提高。特别是，与滑坡识别直接相关的IoU指标提高了1.862%，F1得分则提高了0.916%。这表明我们的筛选方法整体上是有效的，不仅节省了计算成本，还提高了精度。
在这里插入图片描述

4.3 深度学习滑坡数据集的对比实验

为了展示我们数据集的卓越质量和稳健性，我们将其与之前发布的数据集进行了对比。我们精心选择了一个验证集，其中包括来自莫西台地区的2119张UAV和卫星影像，而其余数据则被分类为UAV和卫星类别，并重新构建为训练集。我们从毕节滑坡数据集【58,59】中获取了RGB数据，该数据集是关于四川及周边地区（四川及周边地区滑坡数据集【60】）的高精度滑坡和泥石流灾害航拍影像和解译数据。此外，还包括HR-GLDD全球分布的高分辨率滑坡数据集【61,62】和Landslide4Sense数据集【63】。为了在训练过程中确保一致性，我们将影像标准化为512 × 512像素的分辨率。实验结果如表7所示。
在这里插入图片描述
表格中展示的数据揭示了一些意想不到的发现。值得注意的是，尽管四川及其周边地区的数据集仅包含59个样本，但在滑坡检测任务中，其表现显著优于毕节数据集、HR-GLDD数据集以及AI4RS小组的数据集，且其性能接近于我们在莫西台地区检测任务中的SAT数据集。与其他三个公开数据集相比，我们的数据集在IoU、F1得分和mIoU等指标上表现出色。这些结果突显了该数据集在指定任务区域内精准识别滑坡的卓越能力。四川及其周边地区数据集在训练中的出色表现可归因于以下几个因素。首先，训练集和验证集地理位置相似，均位于中国四川省。其次，训练集中航拍影像的质量相当高。在我们创建的三个数据集中，SAT+UAV数据集尤为突出，其结果展示了在处理未知影像时，多源数据的稳健性。此外，UAV数据集与SAT数据集的对比表明，训练集质量与滑坡识别能力之间存在正相关关系。有趣的是，尽管在先前的基线分析中SAT数据集的质量较低，但本实验中其结果与质量更高的“四川及周边地区滑坡数据集”相当，这表明卫星数据集的局限性主要来源于影像质量本身。

需要强调的是，在本次比较中，我们仅使用了RGB光学影像进行训练，未引入诸如DEM数据等额外数据进行辅助训练。尽管HR-GLDD数据集总共包含1785张影像，但其主要用于训练集的图像为1119张，其余图像则分配到测试集和验证集中。

5. 使用说明

CAS滑坡数据集提供了超高分辨率、多模态和多样化场景，涵盖了不同地形、气候和植被变化。然而，需注意其局限性。具体来说，尽管数据集包含多样的场景，但在深度学习任务中的数据量仍相对较少，且某些子数据集之间存在显著的区域差异。在训练和使用CAS滑坡数据集时，应考虑这些差异对结果的潜在影响。此外，在解释结果和评估数据集性能时，还需注意数据集的局限性，例如其空间分辨率范围为0.2-5米，以及其数据源自SAT和UAV平台。

欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！
祝所有的硕博生都能遇到好的导师！好的审稿人！好的同门！顺利毕业！