和鲸科技执行总裁殷自强:面向空间数据协同分析场景的模型生命周期管理方法

导读:

由 ACM SIGSPATIAL 中国分会主办的第五届空间数据智能学术会议(SpatialDI 2024)于 2024 年 4 月 25 日- 27 日在南京圆满召开,主题为“ AGI 时代下的空间数据智能”,旨在深入推动空间数据智能研究的理论进步与应用创新,以便相关领域的专家学者共同探讨新理论、新问题与新方法,共同推动该领域的持续发展。

会议期间,和鲸科技联合创始人,现任公司执行总裁兼首席产品官殷自强受邀在应急减灾与可持续发展专题论坛发表主题报告,题目为《面向空间数据协同分析场景的模型生命周期管理方法》

本文内容已做精简,如需获取完整版课件,请联系我们

分享嘉宾 | 殷自强

和鲸科技联合创始人,现任公司执行总裁兼首席产品官,统筹公司产品战略与客户战略,专注于数据驱动研究与 AI for Science 场景的数据科学平台产品设计与方法创新,主导了 ModelWhale 数据科学协同平台在气象、地质、遥感、空间科学等众多空间数据智能领域的落地,参与了多项国家级研究专项的平台基础设施攻关,对数据智能场景的多角色协同研究流程有独到的见解与丰富的经验积累。

01

企业视角下的空间数据智能分析与应用减灾场景

本次报告旨在以企业的角度探讨如何站在模型生命周期管理的视角,审视空间数据智能分析以及其在各应用减灾场景下的应用。殷自强介绍道,作为一家专注于“数据科学协同平台”的数据智能科技公司和平台服务商,和鲸科技已在气象、地质、地震、遥感、空间科学等领域参与了诸多应急减灾领域的模型落地,对其相关研究方法的快速发展深有体会。

和鲸发现,空间数据智能场景相关的数据积累呈现出爆炸性的增长,涵盖了众多维度。这些数据不仅包括空间站和卫星数据,还涉及地面雷达站点等多种观点数据,使数据变得日益多元化。

其次,我们发现这些数据在各个应用场景中不断进行渗透。无论是地质调查、社会科学、城市空间还是海洋科学等领域,数据都在发挥着重要作用。在这个过程中,数据与应用场景之间呈现出不断的关联、耦合和协同。例如,在气象场景中,我们需要整合卫星、雷达、格点和站点等多种数据来进行气象预报。

此外,许多应用场景也存在多耦合的特点。在完成预测动作后,我们需要立即评估相关的风险。例如,极端天气所带来的风险可能涉及地质灾害以及对城市空间的影响等多个方面。因此,在应用场景上,我们亟需进行相应的耦合处理。

02

企业视角下的空间数据智能分析与应用减灾场景

整个空间数据智能场景中,面对海量的数据,不同组织和研究场景之间的协同变得困难。然而,通过高维压缩形成模型,我们能够实现数据的共享和传递。数据的内在信息与价值正日益以更为丰富和高维的形式融入模型中,对数据的生命周期管理已逐渐演进为对模型生命周期的全面掌控,在此基础上,我们需要进一步审视并协调数据生命周期与模型生命周期之间的动态关系(From DataOps to ModelOps)。当前,针对空间数据智能分析场景的模型生命周期管理流程,和鲸通过自身实践,总结出以下 3 种 AI for Science 的ModelOps 方法论。

SAOps:以知识驱动、以数据验证的科学分析流程形成的专业模型

SAOps 是一个不断提出假设、检验假设的过程,涉及设计实验、分析数据等多个环节。在此过程中,模型的可解释性尤为重要,我们强调解释性优先,旨在解决模型与解释之间的关键问题。为此,我们需要对模型管理进行两项重要工作:一是保留探索模型及结果的过程,采用使用效果不好的方法,其结论和对比结果也能推进模型的发展;二是将模型与计算过程的报告相结合,共同构成成果。

MLOps:以数据驱动、以知识解释的 AI 模型

MLOps 是一个深入研究的流程。这类模型具有多个特点,如依赖数据和算力进行训练,例如,模型的代码和框架可以保持不变,但不同的训练数据会直接影响模型结构。此外,调用的算力资源也会影响模型训练的结果。因此,模型设计不仅取决于设计者,还依赖于数据资源和算力资源。最后,这类模型是全生命周期的,需要不断迭代,以适应数据的不断增长。我们需要进行数据探索、模型训练、模型评估、模型部署、模型监控和优化,以确保模型处于最佳状态。

讨论模型版本时,我们面临的挑战与以往不同。从模型全生命周期的角度看,版本管理变得更为复杂,不再仅限于模型文件本身。现在,我们需综合考虑数据要素、算力代码及训练环境等关键因素。此外,模型需持续评估,仅凭增加数据量并不能保证性能提升,倘若引入脏数据,可能会影响模型表现。因此,需建立持续化评估体系,确保模型始终最佳。

LLMOps:串联数据模型与领域知识的 LLM 智能体

大语言模型不仅在于其语言处理能力,更在于其作为 Agent 智能体基础设施所带来的变革。大模型可以参与 Agent智能体的计划(planning)、工具(tools)、记忆(memory)和行动(action)等过程,加速科学实验设计、阶段性成果学习以及与其他模型的融合。在未来,我们有望将研究流程、模型、科研工具等函数化,供大模型调用,从而加速模型生命周期的研究。

03

企业视角下的空间数据智能分析与应用减灾场景

接下来,我们将通过一个具体案例来深入探讨模型生命周期管理在实际应用中的落地实践。这个案例是和鲸与中国自然资源航空物探遥感中心遥感应用技术研究所合作的项目。在合作过程中,我们对上述模型生命周期管理流程进行了总结,并发现了一些关键特点和要素。

首先,和鲸高度重视模型生命周期管理的完善,因此,确立清晰的研究基本范式显得尤为重要。以遥感研究为例,遥感数据具有许多特殊性,虽然与图像数据相似,但无法直接使用计算机视觉模型进行研究。因此,我们需要将专家知识融合到模型设计过程中,形成“AI+遥感”的研究范式。这种范式强调从数据与知识的联合驱动出发,形成了对整个模型过程的研究管理。

在这个过程中,领域专家和AI模型相关专家之间的协作至关重要。他们需要在平台上共同工作,利用智能解译等相关技术,使模型能够学习并形成相应的流程。这个过程需要从数据驱动逐渐转向数据与知识的联合驱动,进而形成具体的研究范式。随后,和鲸可以基于这些范式开发具体的应用,形成“1+N”的服务模式,即在一个平台上结合多个应用终端,同时满足科研和生产的其他需求。

04

企业视角下的空间数据智能分析与应用减灾场景

特点一:跨角色协同扮演重要角色

首先,专家的知识与数据驱动化知识的结合是这一过程的关键。在讨论整个模型生命周期管理时,我们发现跨角色的协同扮演着重要角色。这主要体现在两个方面:一是领域专家对已有科研数据形成科研分析工具链的过程;二是AI算法模型的不断迭代过程。这两个过程并不是孤立的,而是需要相互协同,共同推动模型的发展。例如,当从遥感数据中提取信息后,我们利用智能解工具生成结果,并进一步开展深入研究。这些研究过程中的成果需要能够被AI解读,以便更好地辅助数据分析。

特点二:时间尺度的不断发展对可复现性的重要性

此外,由于空间数据科学中的数据量随时间呈爆炸性增长,相关模型的持续迭代十分必要。在这个过程中,模型的可复现性至关重要。这意味着无论是内部单位还是其他人,都需要能够基于我们的数据和模型进行下一步的迭代。因此,我们需要讨论如何确保模型能够被有效复现,包括基础设施的建设和对模型理解性的提升。

特点三:社区化承载模型成果对领域发展的重要性

会上的其他专家也多次提及协同的重要性。站在数据智能研究的角度,组织的边界是模糊的,它并不局限于独立的研究机构内,社区化是承载模型成果、推动领域发展的重要方式。不同的组织需要设计相应的模型成果接口,以便与外部组织进行交流和调用。例如,我们设计的和鲸社区,将不同垂直领域,例如气象科学数据分析的模型和成果以开放的形式在平台上共享。

数据科学平台的选型和落地过程极为复杂,充满风险,因此客户在选择产品时极为审慎。随着企业对成本效益和可持续性的日益关注,服务商需提供成本更低、迭代更快、效率更高的方案来满足客户需求。和鲸科技凭借其成熟的竞赛和社区平台,实现了多垂直领域数据分析流程、代码、结果的在线运行与端到端复现,使其他用户能够轻松运行、修改并分享社区内的模板。这不仅为和鲸吸引了大量专业用户,也为数据科学协同平台 ModelWhale 的发展提供了强大的支持。

本文内容已做精简,如需获取完整版课件,请联系我们

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/351301.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TIM—通用定时器高级定时器

通用/高级定时器的功能 在基本定时器功能的基础上新增功能: 通用定时器有4个独立通道,且每个通道都可以用于下面功能。 (1)输入捕获:测量输入信号的周期和占空比等。 (2)输出比较:产…

115.网络游戏逆向分析与漏洞攻防-邮件系统数据分析-调试优化结构体类型数据的创建

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 如果看不懂、不知道现在做的什么,那就跟着做完看效果 现在的代码都是依据数据包来写的,如果看不懂代码,就说明没看懂数据包…

macOS Sequoia 将 Mac 生产力与智能化提升至全新高度 (macOS 15 ISO、IPSW、PKG 下载)

macOS Sequoia 将 Mac 生产力与智能化提升至全新高度 (macOS 15 ISO、IPSW、PKG 下载) iPhone 镜像、Safari 浏览器重大更新、备受瞩目的游戏和 Apple Intelligence 等众多全新功能令 Mac 使用体验再升级 请访问原文链接:https://sysin.org/blog/macOS-Sequoia/&a…

【动态规划】| 路径问题之最小路径和 力扣64

🎗️ 主页:小夜时雨 🎗️专栏:动态规划 🎗️如何活着,是我找寻的方向 目录 1. 题目解析2. 代码 1. 题目解析 题目链接: https://leetcode.cn/problems/minimum-path-sum/description/ 这道题目和之前一道…

基于C#开发web网页管理系统模板流程-参数传递

点击返回目录-> 基于C#开发web网页管理系统模板流程-总集篇-CSDN博客 前言 当用户长时间未在管理系统界面进行操作,或者用户密码进行了更改,显然用户必须重新登录以验证身份,如何实现这个功能呢? HTTP Cookie(也叫 …

【云原生】docker swarm 使用详解

目录 一、前言 二、容器集群管理问题 2.1 docker集群管理问题概述 2.1.1 docker为什么需要容器部署 2.2 docker容器集群管理面临的挑战 三、docker集群部署与管理解决方案 四、Docker Swarm概述 4.1 Docker Swarm是什么 4.1.1 Docker Swarm架构图 4.1.2 Docker Swarm几…

【最新鸿蒙应用开发】——鸿蒙中的“Slot插槽”?@BuilderParam

构建函数-BuilderParam 传递 UI 1. 引言 BuilderParam 该装饰器用于声明任意UI描述的一个元素,类似slot占位符。 简而言之:就是自定义组件允许外部传递 UI Entry Component struct Index {build() {Column({ space: 15 }) {SonCom() {// 直接传递进来…

机器学习笔记 - 用于3D点云数据分割的Point Net的训练

一、数据集简述 ​在本教程中,我们将学习如何在斯坦福 3D 室内场景数据集 ( S3DIS )上训练 Point Net 进行语义分割。S3DIS 是一个 3D 数据集,包含来自多栋建筑的室内空间点云,占地面积超过 6000 平方米。Point Net使用整个点云,能够执行分类和分割任务。如果你一直在关注 …

LVS负载均衡集群企业级应用实战-LVS-DR(四)

目录 LVS-DR 一. 环境准备 二. 对虚拟主机操作 三. 对真实服务器操作 四. 打开网页测试 LVS-DR 一. 环境准备 三台虚拟机,都要在同一网段内,统一关闭防火墙和selinux,时间同步,配置好YUM源。系统用centos和roucky都行。 主…

matlab-2-simulink-小白教程-如何绘制电路图进行电路仿真

以上述电路图为例:包含D触发器,时钟CLK,与非门 一、启动simulink的三种方式 方式1 在MATLAB的命令行窗口输入“Simulink”命令。 方式2 在MATLAB主窗口的“主页”选项卡中,单击“SIMULINK”命令组中的Simulink命令按钮。 方式3 从MATLAB…

[Linux] TCP协议介绍(3): TCP协议的“四次挥手“过程、状态分析...

TCP协议是面向连接的 上一篇文章简单分析了TCP通信非常重要的建立连接的"三次握手"的过程 本篇文章来分析TCP通信中同样非常重要的断开连接的"四次挥手"的过程 TCP的"四次挥手" TCP协议建立连接 需要"三次握手". "三次挥手&q…

光明网发稿投稿流程与要求,光明日报如何投稿?附光明网多少钱(价格表)

对于想要在光明网发稿的作者来说,媒介多多网发稿平台是一个绝佳的投稿选择。光明网作为国内一流的新闻媒体平台,其严谨的文章审核标准和广泛的读者基础吸引着无数作者。然而,由于其严格的发稿标准,一些作者可能会遇到一些困难&…

基于Python+OpenCV高速公路行驶车辆的速度检测系统

简介: 基于Python和OpenCV的高速公路行驶车辆的速度检测系统旨在实时监测高速公路上的车辆,并测量它们的速度。该系统可以用于交通监控、道路安全管理等领域,为相关部门提供重要的数据支持。 系统实现: 视频流输入:系…

快速理解 Node.js 版本差异:3 分钟指南

Node.js 是一个广泛使用的 JavaScript 运行时环境,允许开发者在服务器端运行 JavaScript 代码。随着技术的发展,Node.js 不断推出新版本,引入新特性和改进。了解不同版本之间的差异对于开发者来说至关重要。以下是一个快速指南,帮…

Docker安装Nginx(各种错误版)

Docker安装-CSDN博客 看过程就一点点看,看结果直接看最后 安装启动Docker之后 docker run -d -p 81:81 --name nginx nginx 这样没有指定版本 docker run:启动一个新的容器。-d:以分离模式运行容器(后台运行)。-p 81:81&…

【制作100个unity游戏之29】使用unity复刻经典游戏《愤怒的小鸟》(完结,附带项目源码)

最终效果 文章目录 最终效果前言素材下载简单搭建环境控制小鸟生成弹簧 限制小鸟的控制范围弹簧线的显示隐藏飞行新增木头木头销毁不同血量的木头状态配置更多物品爆炸效果创建敌人的小猪创建多个小鸟循环游戏结束相机跟随加分特效不同定义技能的鸟加速鸟回旋鸟爆炸鸟效果 轨迹…

【MySQL】服务器配置和管理

本文使用的MySQL版本是8.0 MySQL服务器介绍 MySQL服务器通常说的是mysqld程序。 mysqld 是 MySQL 数据库服务器的核心程序,负责处理客户端的请求、管理数据库和执行数据库操作。管理员可以通过配置文件和各种工具来管理和监控 mysqld 服务器的运行 官方文档&…

YOLOv10涨点改进SPPF创新结构,重新设计全局平均池化层和全局最大池化层,增强全局视角信息和不同尺度大小的特征

本文改进:SPPF_improve利用全局平均池化层和全局最大池化层,加入一些全局背景信息和边缘信息,从而获取全局视角信息并减轻不同尺度大小所带来的影响,强烈推荐,适合直接使用,paper创新级。 目录 1,YOLOv10介绍 1.1 C2fUIB介绍 1.2 PSA介绍 1.3 SCDown 2.SPP &SP…

Hvv--知攻善防应急响应靶机--Linux1

HW–应急响应靶机–Linux1 所有靶机均来自 知攻善防实验室 靶机整理: 夸克网盘:https://pan.quark.cn/s/4b6dffd0c51a#/list/share百度云盘:https://pan.baidu.com/s/1NnrS5asrS1Pw6LUbexewuA?pwdtxmy 官方WP:https://mp.weixin.…

工业自动化领域常见的通讯协议

工业自动化领域常见的通讯协议,包括PROFINET、PROFIBUS、Modbus、Ethernet/IP、CANopen、DeviceNet和BACnet。通过分析这些协议的技术特点、应用场景及优势,比较它们在工业自动化中的性能和适用性,帮助选择最合适的协议以优化系统性能和可靠性…