优于五大先进模型,浙江大学杜震洪团队提出 GNNWLR 模型:提升成矿预测准确性

卡塔尔世界杯自 2010 年荣膺举办权,直至 2022 年辉煌成功举办,累计投入资金高达约 2,290 亿美元。相较之下,此前七届世界杯的总花费仅约 400 多亿美元。这场体育盛事展现出奢华无度的风采,归根结底源于卡塔尔这个国度的深厚底蕴。正所谓「家中有矿,心中不慌」,卡塔尔正是凭借丰厚的矿产资源,得以尽情挥洒钞票,打造一场场视听盛宴。

矿产资源,对个人而言,意味着取之不尽的巨额财富,令人神往;对社会而言,则是经济社会发展的重要支柱,关乎国计民生和国家安全。然而,矿产资源并非唾手可得,它们藏于地下数百米之处,往往要历经千辛万苦,才能勘查出宝贵的矿产资源。

随着矿产勘查学科的不断发展,业内已经逐步形成以「成矿系统-勘查系统-预测评价系统」为指导的研究路线。尽管人工智能在矿产资源预测评价 (MPM) 系统中发挥着越来越重要的作用,但其应用仍存在一定的局限性,往往使得地质学家难以相信最终结果。

为了提升成矿预测模型的可解释性,以及成矿过程中因地质因素导致的空间非平稳性,浙江大学的研究团队提出了一种新的地理空间人工智能方法——地理神经网络加权逻辑回归 (geographically neural network-weighted logistic regression, GNNWLR)。

该模型集成了空间模式 (spatial patterns) 和神经网络,结合 Shapley 加性解释理论,不但能够大幅提升预测的准确性,并且能够在复杂的空间场景中提升矿物预测的可解释性。

图片

MPM 过程

研究亮点

  • 提出了一种地理神经网络加权逻辑回归模型 GNNWLR

  • GNNWLR 在矿产资源预测评价方面优于其他先进模型

  • GNNWLR 克服了空间异质性和非线性影响

  • GNNWLR 提升了人工智能用于成矿机制的可解释性

图片

论文地址
https://doi.org/10.1016/j.jag.2024.103746
关注公众号,后台回复「成矿预测」获取完整 PDF

角逐全球 MPM 试验场:加拿大新斯科舍省 Meguma 地区

该研究主要围绕加拿大新斯科舍省西部面积约 7,800 平方公里的 Meguma 群,该地区主要覆盖草原和森林。Meguma 地体由两层地层组成,下层为 Goldenville 群地层,主要由变质砂岩组成。上层为 Halifax 群地层,由页岩复杂岩石组成。

由于阿卡迪亚造山运动和泥盆纪花岗岩的侵位作用,该地区形成了一系列北东-南西走向的褶皱构造,已成为多种矿产资源预测评价系统的试验场。

图片

简化的地质图和要素图层

研究区域内共有 20 处浊积岩金矿床。因此,该研究使用了 6 个特征层,包括背斜构造因素,Goldenville 和 Halifax 地层之间的接触因素,以及铜 (Cu)、铅 (Pb)、砷 (As) 和锌 (Zn) 等化学元素。

其中,该研究对背斜以及 Goldenville 和 Halifax 地层之间的接触面,进行了多环缓冲区分析 (multiple-ring buffer analysis),以 0.5km 的间隔分配相应权重,共形成了 16 个缓冲区环。同时,该研究还对 671 个含有化学元素的湖泊沉积物样品进行了反距离加权插值 (IDW)。最后,该研究对整个研究区域进行网格化处理,将所有特征层统一为 1km x 1km 的栅格数据。

由于 20 个正样本相对于整个研究区域而言仍然太小,正负样本的比例比较容易出现不平衡的情况。所以,该研究还对缓冲区进行了分析,围绕 20 个正样本点划分 2km 半径,然后进行栅格化分析。

最终,该研究共获得 245 个阳性样本,代表此处存在矿藏,其他则表示不存在。同时,该研究从负样本集中随机选择与正样本相同数量的数据,并与正样本合并以创建训练集和验证集。

GNNWR 模型:有效集成神经网络

由于地理神经网络加权回归 (GNNWR) 的模型结构使用了均方误差,直接将其应用于矿产资源预测评价中可能会带来收敛挑战。研究证明,交叉熵比均方误差更具实用性优势。因此,该研究采用了专门为逻辑回归设计的损失函数——二元交叉熵 (binary cross-entropy, BCE)。

在此背景下,GNNWLR 首先计算每个数据点的空间坐标,与训练数据集中其他数据点的空间坐标之间的距离,并以此作为输入,进行 dropout 正则化并防止过度拟合。

其次,该研究通过神经网络输出的空间权重向量,与最小二乘法得出的系数和自变量的值进行点积运算,随后应用逻辑回归函数生成最终的预测值。

最终,该研究使用二元交叉熵损失函数计算相对于实际值的损失,并以此指导神经网络进行负反馈调整。

图片

GNNWLR 模型构建

在该研究中,研究人员还针对目前最为常见的地理加权回归 (GWR)、支持向量机 (SVM)、随机森林 (RF)、地理加权逻辑回归 (GWLR)、地理加权支持向量回归 (GWSVR)、随机森林 (GWRF) 模型进行比较。

具体来看,该研究采用五折交叉验证 (five-fold cross-validation),将 20 个矿床随机分为 5 个序列,每个序列有 4 个矿床,然后对这 4 个矿床进行缓冲半径为 2km 的缓冲分析,以获得每个序列的阳性样本。类似地,该研究还匹配正样本数量从负样本池中随机选择负样本,并且每个负样本在五折交叉验证中仅出现一次。

依据五折交叉验证理论,其中 4 份样本集被用于训练,1 份样本集被用于验证,这个过程重复 5 次,每个序列分别作为一次验证集,最终将五折交叉验证得到的训练集和验证集进行合并。

从结果来看,由于 GNNWLR 模型对神经网络的有效集成,GNNWLR 明显优于其他模型,在矿物分类方面表现出卓越的拟合和预测能力,AUC 为 0.913,较其他模型高出 5%-16%。 同时,GWRF 和 GWSVR 也明显优于 RF 和 SVM,这可能是因为它们都结合了地理加权回归 (GWR),可以更准确地描述空间变量之间的局部关系。

图片

各模型性能比较,GNNWLR 表现最优

所有模型的 MPM 图也都直观表明,新斯科舍省的矿产前景在空间上存在较大差异,东北地区的得分整体更高,与矿床的实际位置一致。然而,面对远离集中区的金矿资源,GNNWLR 可以发现更多容易被其他模型忽略的矿床。

例如,GNNWLR 在「区域1」的得分高达 0.985,而 GWSVR、GWRF、GWLR、SVM、RF 和 GWR 模型的相应得分仅为 0.288、0438、0.471、0.133、0.383 和 0.290 。

图片

不同模型获得金矿床的预期目标区域

此外,RF 和 SVM 模型在「区域 2」和「区域 3」中表现出突然跳跃,这影响了它们的准确性和可靠性。GNNWLR、GWLR 和 GWR 模型考虑了成矿因素的空间邻近性和异质性,可以防止传统机器学习模型中常见的突变的发生。据观察,GNNWLR 在捕获这些因素之间复杂的非线性关系(特别是与空间变化相关的因素)方面,表现出卓越的能力。

因此,GNNWLR 在预测矿产前景方面,表现出相对无缝的过渡,显示出与经验数据一致的更高精度和一致性。

SHAP 可定量分析成矿影响因素

为了提高模型评估的可解释性,该研究集成并使用整个数据集的正样本集,计算 GNNWLR 中相关位置的矿产前景特征。

结果表明,As 对模型输出的影响最大,并与 SHAP 值呈现正相关,As 值越大,SHAP 值越高,矿化的可能性越大,这可能由于 As 是一种低温热液元素,常与金矿床相关。类似地,Zn 对许多矿区都有负面影响,而 Cu 的影响最不显著。其中,As、Pb 是与雄黄和方铅矿等矿物伴生的低温热液元素,Zn 和 Cu 是形成闪锌矿和黄铜矿等矿物的中温热液元素。综上所述,该地区的金矿形成与低温热液过程密切相关。

图片

6 个要素图层的 SHAP 值

通过对不同区域不同特征的矿化影响进行评估,该研究发现「区域 4」的矿化与背斜和 Pb 强相关,「区域 5」存在两个矿藏,其中北部矿床受 Cu、Pb、Zn、As 四种元素的积极影响,表明该低区同时具有中温热液和低温热液成矿作用;南部矿床受到 Zn 和 As 的正向影响,表明其中以中温热液为主。

结合新斯科舍省自然资源部的钻探数据,「区域 5」北部矿床有 39 条和金矿有关的地质钻探记录,涉及多种低温中温热液矿物,「区域 5」南部矿床与金矿相关的地质钻探记录仅有 4 条,矿床区主要含有硫化物、毒砂等中温热液矿物。「区域 6」的矿化与背斜接触密切相关,这也证实了基于 SHAP 值的空间分布对矿化类型的推断。

图片

区域5两个矿床钻探数据中其他矿物与金矿共生的频率

综上,基于 SHAP 值的模型可以对整个空间域内影响成矿结果的各种因素进行定量分析,具有卓越的可解释性并符合地球科学原理。 同时,该研究还比较了 SHAP 值与回归系数的空间分布图。结果表明,回归系数的空间分布并不完全符合地质规律。因此,SHAP 值比传统的回归系数更有意义,更易于学者参考。

图片

GNNWLR模型6个特征层回归系数的空间分布

浙江大学杜震洪教授:专注时空大数据与人工智能科研工作

时任浙江大学地球科学学院常务副院长、党委副书记的杜震洪教授所带领的研究团队,长期从事遥感与地理信息系统、时空大数据与人工智能的科研工作,在面向地理、海洋、地质灾害等领域的时空大数据分析基础理论与关键技术研究上取得了显著成绩。

早在 2019 年,杜震洪教授就获得国家优秀青年科学基金的「海洋大数据分析」项目资助,在该项目中以人工智能方法为驱动,充分利用深度神经网络的超强非线性拟合与计算能力,解决「时空邻近关系如何统一表达」和「时空非平稳性如何精准解算」两个基础问题。

2022 年,杜震洪教授获得国家杰出青年科学基金项目资助,在人工智能、大数据与地球科学的结合方面再进一步。

自 2021 年底起,杜震洪教授团队先后于 2021 年 12 月至 2022 年 1 月底、2 月底至 4 月、7 月至 9 月组织并参与了三轮集中攻关活动,逐渐探索出了一条可行的、高效的跨团队协同攻关的工作机制,最终建设了 DDE 首个全球公共科技平台 Deep-time.org。该研究的成果 「Deep-time.org 1.0 Alpha版本」于 2022 年 12 月在联合国教科文组织 DDE 论坛正式发布。
深时数字地球 (Deep-time Digital Earth,DDE) 是国际地学联盟 (IUSG) 认可的第一项国际大科学计划

作为浙江大学地球科学学院的中坚力量,杜震洪教授正带领团队将 GIS、遥感、计算机科学与地理、海洋、地质等充分融合,展开探索数据驱动的地学发展新篇章。

参考资料:
1.https://www.zast.org.cn/art/2022/12/8/art_1675105_58963288.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/295599.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

nginx配置多vue项目

1. 找到linux docker安装好的nginx目录文件 进入nginx内 把打包好的vue项目放在html文件下 如上 三个文件夹下对应着三个不同的vue项目 2. 配置default.conf的配置文件, 一个nginx配置文件可以多个项目进行代理 进入到conf 找到conf.d下面的default.conf 文件…

SV学习笔记(二)

接口 什么是接口? 接口 主要用作验证 ,国外有些团队会使用sv进行设计,那么接口就会用作设计。验证环境中,接口可以 使连接变得简洁而不易出错 。interface和module的使用性质很像, 可以定义端口,也可以定…

[C/C++] -- 二叉树

1.简介 二叉树是一种每个节点最多有两个子节点的树结构,通常包括:根节点、左子树、右子树。 满二叉树: 如果一棵二叉树只有度为0的结点和度为2的结点,并且度为0的结点在同一层上,则这棵二叉树为满二叉树。深度为k&a…

如何备份极狐GitLab 信任域名证书

本文作者:徐晓伟 GitLab 是一个全球知名的一体化 DevOps 平台,很多人都通过私有化部署 GitLab 来进行源代码托管。极狐GitLab 是 GitLab 在中国的发行版,专门为中国程序员服务。可以一键式部署极狐GitLab。 本文主要讲述了如何使用极狐GitLa…

WebCopilot:一款功能强大的子域名枚举和安全漏洞扫描工具

关于WebCopilot WebCopilot是一款功能强大的子域名枚举和安全漏洞扫描工具,该工具能够枚举目标域名下的子域名,并使用不同的开源工具检测目标存在的安全漏洞。 工具运行机制 WebCopilot首先会使用assetsfinder、submaster、subfinder、accumt、finddom…

华为OD机试 - 最大社交距离(Java 2024 C卷 100分)

华为OD机试 2024C卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(A卷B卷C卷)》。 刷的越多,抽中的概率越大,每一题都有详细的答题思路、详细的代码注释、样例测试…

ubuntu20.04 运行 lio-sam 流程记录

ubuntu20.04 运行 lio-sam 一、安装和编译1.1、安装 ROS11.2、安装 gtsam1.3、安装依赖1.4、下载源码1.5、修改文件1.6、编译和运行 二、官方数据集的运行2.1、casual_walk_2.bag2.2、outdoor.bag、west.bag2.3、park.bag 三、一些比较好的参考链接 记录流程,方便自…

【威胁情报综述阅读3】Cyber Threat Intelligence Mining for Proactive Cybersecurity Defense

【威胁情报综述阅读1】Cyber Threat Intelligence Mining for Proactive Cybersecurity Defense: A Survey and New Perspectives 写在最前面一、介绍二、网络威胁情报挖掘方法和分类A. 研究方法1) 第 1 步 - 网络场景分析:2) 第 2 步 - 数据…

Python 之 Flask 框架学习

毕业那会使用过这个轻量级的框架,最近再来回看一下,依赖相关的就不多说了,直接从例子开始。下面示例中的 html 模板,千万记得要放到 templates 目录下。 快速启动 hello world from flask import Flask, jsonify, url_forapp F…

时间管理系统的设计与实现|Springboot+ Mysql+Java+ B/S结构(可运行源码+数据库+设计文档)大学生

本项目包含可运行源码数据库LW,文末可获取本项目的所有资料。 推荐阅读300套最新项目持续更新中..... 最新ssmjava项目文档视频演示可运行源码分享 最新jspjava项目文档视频演示可运行源码分享 最新Spring Boot项目文档视频演示可运行源码分享 2024年56套包含ja…

使用deepspeed小记

1. 减少显存占用的历程忠告 医学图像经常很大,所以训练模型有时候会有难度,但是现在找到了很多减少显存的方法。 不知道为什么,使用transformers的trainer库确确实实会减少显存的占用,即使没有使用deepspeed,占用的显…

MySQL 8.0.13安装配置教程

写个博客记录一下,省得下次换设备换系统还要到处翻教程,直接匹配自己常用的8.0.13版本 1.MySQL包解压到某个路径 2.将bin的路径加到系统环境变量Path下 3.在安装根目录下新建my.ini配置文件,并用编辑器写入如下数据 [mysqld] [client] port…

30. UE5 RPG GamplayAbility的配置项

在上一篇文章,我们介绍了如何将GA应用到角色身上的,接下来这篇文章,将主要介绍一下GA的相关配置项。 在这之前,再多一嘴,你要能激活技能,首先要先应用到ASC上面,才能够被激活。 标签 之前介绍…

【SpringBoot整合系列】SpirngBoot整合EasyExcel

目录 背景需求发展 EasyExcel官网介绍优势常用注解 SpringBoot整合EaxyExcel1.引入依赖2.实体类定义实体类代码示例注解解释 3.自定义转换器转换器代码示例涉及的枚举类型 4.Excel工具类5.简单导出接口SQL 6.简单导入接口SQL 7.复杂的导出(合并行、合并列&#xff0…

python Flask扩展:如何查找高效开发的第三方模块(库/插件)

如何找到扩展以及使用扩展的文档 一、背景二、如何寻找框架的扩展?三、找到想要的扩展四、找到使用扩展的文档五、项目中实战扩展 一、背景 刚入门python的flask的框架,跟着文档学习了一些以后,想着其实在项目开发中,经常会用到发…

每日面经分享(Spring Boot: part3 Service层)

SpringBoot Service层的作用 a. 封装业务逻辑:Service层负责封装应用程序的业务逻辑。Service层是控制器(Controller)和数据访问对象(DAO)之间的中间层,负责处理业务规则和业务流程。通过将业务逻辑封装在S…

当面试官问你插入排序算法,你敢说自己会吗?

算法学习的重要性 在程序员的世界里,算法就如同一座桥梁,连接着问题与解决方案,是实现优秀程序的关键。 掌握算法,就能够在面对各种问题时,找到最合适的解决方法,以最少的时间和空间,实现最优的…

基于FPGA的SPI_FLASH程序设计

SPI_FLASH简介 spi_flash是一种通用存储器,也称为SPI NOR Flash或SPI Flash。它使用SPI(Serial Peripheral Interface)接口进行通信,可以通过串行方式读写数据。spi_flash的特点是工作电压低,体积小,读写速…

梨花带雨网页音乐播放器二开优化修复美化版全开源版本源码

源码简介 最新梨花带雨网页音乐播放器二开优化修复美化版全开源版本源码下载 梨花带雨播放器基于thinkphp6开发的XPlayerHTML5网页播放器前台控制面板,支持多音乐平台音乐解析。二开内容:修复播放器接口问题,把接口本地化,但是集成外链播放器…

C++的并发世界(三)——线程对象生命周期

0.案例代码 先看下面一个例子&#xff1a; #include <iostream> #include <thread>void ThreadMain() {std::cout << "begin sub thread:" << std::this_thread::get_id()<<std::endl;for (int i 0; i < 10; i){std::cout <&…