基于大模型的数据血缘异常归因分析

近日,以“元数据技术及应用创新”为主题,最新一季StartDT Hackathon(奇点云黑客马拉松)正式收官。

本期黑客松共吸引了近50位选手参赛,有的在实时数仓领域显神通,有的则再次请出了大模型。这些小组都有个共同点——基于数据云平台DataSimba的元数据域“搞事情”。

篇幅所限,下文仅择本期最具代表性的2组,逐一介绍成果:

  • 基于图引擎及可视化的作业异常诊断分析
  • 基于大模型的数据血缘异常归因分析

赛前须知

“元数据域”能干啥?

元数据(Metadata),是描述数据的数据,能够提供数据的定义、结构、特征、关系等信息,例如字段、数据类型、数据来源、关联关系、质量特征等等。

在错综复杂的数据世界,元数据极为重要。它帮助我们更好地理解、管理、利用数据

举个例子,在数字图片中,元数据包括拍摄日期、相机型号、曝光时间、光圈值等技术信息,也可能包含地理位置信息;在文档文件中,元数据则可能包含作者姓名、创建日期、最后修改日期、字数统计等等。

那“元数据域”又是干啥的?

根据“资源抽象,接口统一”的原则,数据云平台DataSimba将复杂的业务对象抽象为6个域、32个对象,以标准、简洁的RESTful API向上提供能力。对象的属性和行为可以被继承、更新、扩展及复用,从而规避重复建设、底层对接难度高、数据系统日益庞大冗杂等问题。

“元数据域”属6大域之一,主要负责帮助上层数据应用快速完成元数据实体的创建、关系和血缘维护、实体检索等相关操作。

 

 例如,DataSimba“资产检索”功能离不开元数据域中的“搜索”对象;对Hive表的影响分析功能,则得益于元数据域中的“血缘”和“关系”对象能力。

此外,元数据域提供统一标准的元数据模型,抽象不同大数据引擎、可视化BI、任务调度平台的元数据,实现元数据标准化和跨引擎转换,帮助上层应用屏蔽底层异构性,通过标准接口即可使用元数据。

简单来说,如果要在数据云平台上用元数据“搞事情”,就离不开元数据域的能力供给。

因此本次比赛,参赛各组不仅要熟知“元数据”的相关技术与场景,也要学会基于元数据域做应用和创新,才有可能在短短几天的赛期内完成项目闭环,交出优秀答卷。

#1 可观测、可修复,跟恐慌说拜拜

基于图引擎及可视化的作业异常诊断分析

作业出现了异常!Why?

受大数据平台组件、上下游依赖、高并发计算及人为配置等多重因素影响,作业出现异常时往往难以快速定位问题所在,评估出异常的影响面并及时修复。

“破壁者”组选择直面这个业内由来已久的问题,借力“元数据”,让异常问题可视可解,让企业的数据工程师不再因作业异常而恐慌。

破壁者组介绍,对作业异常的诊断处置分为三个阶段:

阶段一,异常可观

试想,如果你负责维护成百上千个数据开发任务,如何第一时间感知到哪些任务出现了问题?

通过元数据域,破壁者组获取了完整的数据源、表、任务、作业、实例等对象的元数据信息,构建了全域全流程的元模型,通过图引擎及可视化工具展示数据血缘,明确异常所在。

 阶段二,异常可便捷修复

在阶段一的基础上,破壁者组结合历史作业的运行日志及自身的业务元数据信息,通过机器学习算法(主要使用R-GCN,即Relational Graph Convolutional Networks),初步预测出作业异常的原因,并结合领域知识引导解释。用户只要点击大屏中的异常作业,就可以获取异常原因及解决方案的参考说明。

进一步,破壁者组整合了数据云平台DataSimba的各项能力接口,比如数据重跑、任务下线、资源扩充等,从而实现基于准确策略的快速修复,甚至支持批量修复异常作业,提升修复效率。

 阶段三,智能自动化修复,即自动化识别作业异常,智能化完成修复,甚至能基于历史数据和模型分析预测作业异常,采取预防措施,防患于未然。

在有限的赛期内,破壁者组输出了生产级的任务、作业和实例元模型,可直接应用于数据血缘和任务删除的关联影响分析等多个场景中。

“受限于时间及技术成熟度,本次破壁者组未能如愿实现阶段三,但还是给我们展示了清晰的解题思路和完整闭环的成果。”评委、资深算法专家曾博评价道,“从业务场景梳理,到元数据采集的元模型设计和采集方案设计,再到基于采集的元数据信息结合图分析可视化工具进行异常诊断分析,全流程可落地性强,场景价值高,值得鼓励。”

#2 AI加持,为异常诊断提效

基于大模型的数据血缘异常诊断分析

同样聚焦作业异常诊断,荣耀百星组表示,数据血缘链路复杂,往往涉及多个数据源、转换过程和目标,导致故障定位难、具体问题诊断难。完成诊断后,还需要提供解决方案,例如修复受损数据、重新运行失败的节点或修复底层问题等等。

这个听起来“非人哉”的漫长过程,不如交给大模型试试。

“荣耀百星”组再度请出了他们的老伙计——奇点云自有的、离线部署的大语言模型(下文简称“大模型”),基于此搭建了一个作业异常归因分析的小工具。

用户可以便捷地完成数据血缘分析、潜在故障节点识别,并获得相应的建议,为故障排除、问题解决提效。

以一张异常节点table4_5的表为例,荣耀百星组现场演示了作业异常诊断的完整过程:

1. 全链路解析异常表。

该工具支持识别血缘中的作业节点、数据节点,找到故障(的数据)节点;支持识别多类问题,包括字段值为空、字段值期望不符、数据表为空等。

在这个环节,用户得知异常节点上游存在一个数据节点和一个作业节点。

2. 在线分析表结构,判断有影响的SQL。

该工具支持解析血缘中数据的表结构及相关的处理SQL,识别出其中有影响的SQL,并解释来帮助定位问题来源。

在这个环节,用户了解了上游各节点的相关信息。

 3. 针对异常,分析血缘链路,诊断病因。

这是最关键的一步——通过设定好的提示工程,逐步分析数据血缘,帮助用户理解、定位原因。

如下图所示,大模型帮助用户判断出异常节点和数据节点有关,和作业节点无关。

 大模型不是生来就会异常诊断。

组长步方介绍,本次的技术难点在于整个推理过程较为复杂:其一,让大模型理解图结构、数据节点和任务节点的关系,其二,让模型分析出问题节点的根因节点。

因此,针对该场景,有三个技术面必须搞定:特定的提示工程技术;质量较高的数据输入;血缘关系相关的业务知识。

步方透露,关于提示工程,考虑了如何最大限度缩减token量,而不让模型推理性能下降;如何让模型的回答更符合业务人员的表达习惯;如何在异常分析时,给出更全面且富有建设性的答案等。

关于数据来源,元数据的高质量数据对训练模型提供了极大帮助,包括节点溯源、业务表架构、任务节点SQL、日志等信息,都为大模型做最终决策提供了强力的依据。

此外,大模型学习了元数据及血缘分析等语料,具备了一定的业务知识,形成了长期记忆,方才能给出符合用户要求的专业反馈。

荣耀百星组表示,接下来将继续拓展可识别类型(例如数据异常分布、逻辑错误等),也将着手打通表数据及多种数据类型,优化对多节点、多来源血缘链路的能力,让异常定位和分析建议更精准。

“荣耀百星组的成果涉及未发布的部分核心技术,‘过分先进,不便展示’。”评委、奇点云CTO地雷对荣耀百星组给予了高度评价,“使用私有化部署的大模型,解决故障处理和血缘分析问题。从现场演示看,完成度也很高。对其他各组降维打击,直接碾压。”

评委们一致认为,本期难度很大,挑战在于元数据抽象度极高,真正理解元数据并做相关技术创新并不容易。

伴随DataSimba架构升级,以Simba OS(数据云操作系统内核)的6大域及32个对象为基础,上层数据应用与创新变得更加简单,才让几天内完成元数据小项目闭环成为可能。

与此同时,这些应用也在向Simba OS提出挑战:API要足够标准、简洁,能力要足够全面、不重不漏,只有能让开发者心无旁骛开发“APP”的“OS”,才算得上好“OS”。

本期黑客松只是起点,数据云操作系统的进化仍在继续,我们也将邀请更多DT开发者们共同创新,探索数据价值!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/85018.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

利用自动校对软件优化新闻稿件的拼写和语法

利用自动校对软件优化新闻稿件的拼写和语法,您可以按照以下步骤进行: 1.选择适合的校对软件:市场上有多种拼写和语法校对软件可供选择。根据您的需求和预算,选择一个功能强大且适合新闻稿件的软件。 2.导入稿件:将待校…

日常BUG ——乱码

😜作 者:是江迪呀✒️本文关键词:日常BUG、BUG、问题分析☀️每日 一言 :存在错误说明你在进步! 一、问题描述 A系统使用Feign调用B系统时,传递的String字符串,到了B系统中变为了乱…

Flutter:屏幕适配

flutter_screenutil flutter_screenutil是一个用于在Flutter应用程序中进行屏幕适配的工具包。它旨在帮助开发者在不同屏幕尺寸和密度的设备上创建响应式的UI布局。 flutter_screenutil提供了一些用于处理尺寸和间距的方法,使得开发者可以根据设备的屏幕尺寸和密度…

2023年游戏买量能怎么玩?

疫情过后,一地鸡毛。游戏行业的日子也不好过。来看看移动游戏收入:2022年,移动游戏收入达到920亿美元,同比下降6.4%。这告诉我们,2022年对移动游戏市场来说是一个小挫折。 但不管是下挫还是上升,移动游戏市…

Git 快速入门

Git 快速入门 文章目录 Git 快速入门一、代码托管平台(远程仓库)二、安装Git三、Git的命令实践Git 的四个区域Git 管理代码的3个场景Git 工作区的理念Git 工作区的生命周期Git 版本回退Git 文件重命名Git查看版本提交日志Git StashGit分支Git标签 四、创…

新利好带动 POSE 持续上扬,月内几近翻倍

PoseiSwap是Nautilus Chain上的首个DEX,得益于Nautilus Chain的模块化Layer3构架,PoseiSwap正在基于zk-Rollup方案构建全新的应用层,并基于此构建隐私、合规等全新的特性,为未来其布局RWA领域推动Web2、Web3世界的进一步融合构建基…

【Docker晋升记】No.1--- Docker工具核心组件构成(镜像、容器、仓库)及性能属性

文章目录 前言🌟一、Docker工具🌟二、Docker 引擎🌏2.1.容器管理:🌏2.2.镜像管理:🌏2.3.资源管理:🌏2.4.网络管理:🌏2.5.存储管理:&am…

(二)结构型模式:2、桥接模式(Bridge Pattern)(C++实现示例)

目录 1、桥接模式(Bridge Pattern)含义 2、桥接模式应用场景 3、桥接模式的UML图学习 4、C实现桥接模式的示例 1、桥接模式(Bridge Pattern)含义 桥接模式是一种结构型设计模式,它将抽象部分与实现部分分离&#…

【算法】逆波兰表达式

文章目录 定义求法代码思想: 定义 逆波兰表达式也称为“后缀表达式”,是将运算符写在操作数之后的运算式。 求法 *如:(ab)c-(ab)/e的转换过程: 先加上所有的括号。 (((ab)*c)-((ab)/e))将所有的运算符移到括号外面 (((ab) c)* …

A33 QT 主线例程 opengl

点击查看 HW33-050 HW33-070 规格书 HW33-050 HW33-070 支持 android 系统和 Linux QT。 HW33-XXX采用4 核Cortex-A7 ARM、Mali400MP2 GPU架构,主频 1.2GHz 的 CPU。内存 存储标配分别为1GB、8GB,内置显卡为Mali400MP2,支持 H.264 1080P …

2023一带一路东盟工商领袖峰会在曼谷成功举行,发明家周初材被授予中泰友好交流大使

今年是共建“一带一路”倡议提出十周年。十年来,共建“一带一路”倡议从理念到行动,从愿景到现实,开展更大范围、更高水平、更深层次的区域合作,致力于维护全球自由贸易体系和开放型世界经济,推动文明交流互鉴&#xf…

uniapp input输入框placeholder文本右对齐

input输入框placeholder文本右对齐 给input标签加上placeholder-class,这个是给placeholder设置样式,右对齐这就是text-align:right;字体颜色之类依次编辑即可。

资讯速递 | ArkUI-X 预览版已正式开源!

OpenHarmony项目群技术指导委员会(以下简称“TSC”)-跨平台应用开发框架TSG所孵化项目 —— ArkUI-X,近期已正式开源 ,开发者基于一套主代码,就可以将在OpenHarmony上开发的精美、高性能应用同时运行在Android、iOS等其…

物联网与5G引领智慧城市时代的到来

智慧城市需要依赖于多种技术,这些技术的应用将城市转变为高效、智能、可持续发展的现代化城市。智慧城市是基于信息技术、物联网和大数据等先进技术的融合,旨在提升城市的运行效率、资源利用效率和居民生活质量。以下是智慧城市需要依赖的主要技术&#…

opencv实战项目 实现手势跟踪并返回位置信息(封装调用)

OpenCV 是一个基于 Apache2.0 许可(开源)发行的跨平台计算机视觉和机器学习软件库,可以运行在Linux、Windows、Android和Mac OS操作系统上。 需要提前准备opencv 和 mediapipe库 pip --default-timeout5000 install -i https://pypi.tuna.tsi…

【JavaEE基础学习打卡02】是时候了解JavaEE了

目录 前言一、为什么要学习JavaEE二、JavaEE规范介绍1.什么是规范?2.什么是JavaEE规范?3.JavaEE版本 三、JavaEE应用程序模型1.模型前置说明2.模型具体说明 总结 前言 📜 本系列教程适用于JavaWeb初学者、爱好者,小白白。我们的天…

如何在docker部署一个python项目

导语: 我之前已经实现了在服务器上直接部署一个文件,但是那种部署方式有个明显的缺陷:我如果需要在其他机器部署该项目时,需要重新配置项目所依赖的环境。因此我们需要一种只需要配置一次环境依赖,就可以在其他机器上随…

竞赛项目 深度学习的动物识别

文章目录 0 前言1 背景2 算法原理2.1 动物识别方法概况2.2 常用的网络模型2.2.1 B-CNN2.2.2 SSD 3 SSD动物目标检测流程4 实现效果5 部分相关代码5.1 数据预处理5.2 构建卷积神经网络5.3 tensorflow计算图可视化5.4 网络模型训练5.5 对猫狗图像进行2分类 6 最后 0 前言 &#…

Flv格式视频怎么转MP4?视频格式转换方法分享

FLV格式的视频是一种早期的视频格式,不支持更高的分辨率和比特率,这意味着视频的清晰度和质量受限制,无法很好地保留细节和质量,这种格式的视频已经逐渐被更高质量的视频格式所替代,例如MP4格式,不仅具有很…

网络安全 Day29-运维安全项目-iptables防火墙

iptables防火墙 1. 防火墙概述2. 防火墙2.1 防火墙种类及使用说明2.2 必须熟悉的名词2.3 iptables 执行过程※※※※※2.4 表与链※※※※※2.4.1 简介2.4.2 每个表说明2.4.2.1 filter表 :star::star::star::star::star:2.4.2.2 nat表 2.5 环境准备及命令2.6 案例01&#xff1a…