云栖实录 | MaxCompute 迈向下一代的智能云数仓

本文根据2024云栖大会实录整理而成,演讲信息如下:

演讲人:

张治国 | 阿里云智能集团研究员、阿里云 MaxCompute 负责人

谢德军|阿里云智能集团资深技术专家

于得水|阿里云智能集团资深技术专家

谌鹏飞|绝味集团首席数智增长官

活动:

2024 云栖大会 - 大数据:商用大数据计算与分析平台专场

2024年云栖大会上,阿里云核心自研云原生智能数据仓库产品MaxCompute,在经过一年的深度打磨后,推出了其迈向下一代智能云数据仓的系列主题分享。此次产品发布,充分展示MaxCompute产品领先行业的云数据产品发展理念与核心优势。

一、MaxCompute:迈向下一代智能云数仓

阿里云智能集团研究员,MaxCompute 负责人张治国对新一代 MaxCompute 智能云数仓进行全面与深度的产品技术阐述与解读。从数仓的经典定义四大维度 Value / Variety / Velocity / Volume 切入,分享了 MaxCompute 在云数据仓库领域上围绕上述四个维度重新构建的全新技术创新与产品突破。

  • Value - Data+AI 一体化:MaxFrame + AI Function + ObjectTable 构建 Data+AI ⼀体化;

  • Variety - 湖仓一体2.0:汇聚高价值数据,在湖仓融合架构之上的多模态结构化/半结构化/非结构化数据的高效处理与分析;

  • Velocity - 近实时数仓:基于 DeltaTable、增量计算&增量物化视图、MCQA2.0 查询加速引擎三层架构实现从离线到近实时架构全面升级;

  • Volume - 企业级能力:在安全稳定方面,同城&跨 Region 灾备、数据脱敏。为客户数据安全保驾护航。在可观测性与 AI 智能化上,提供 IntelligentTuning 与智能物化视图创新能力。

MaxCompute 通过经典数据仓库能力定义与云数据架构的深刻理解,构建出面向下一代智能云数仓。其四个核心产品理念包括但不限于:Data+AI - 数据价值的不断深化, 开放湖仓架构衍生出的多样数据融合处理与分析,近实时数仓-从离线到近实时的系统性能优化,企业级服务能力- Serverless 智能云数仓的企业终极差异优势。

1. Data+AI 价值化

MaxFrame + AI Function + ObjectTable 构建 Data+AI ⼀体化

随着 AI 应用浪潮的逐步深入,MaxCompute 为用户提供了 Data + AI 一体化开发体验。

MaxFrame 可以基于 External Project + Object Table 的方案对 AI 开发中使用的多模态非结构化数据统一管理,通过 Notebook 的交互式数据处理和 Python SDK 统一开发体验,一份 code 同时包含数据处理及模型训练、推理。MaxFrame 自动分布式 python数据处理框架,兼容 Pandas DataFrame,内置可扩展 AI function,使用通义大模型能力在分布式数据处理中进行智能分析和内容生成,支持灵活易用的 Python 依赖打包及镜像管理能力。为企业构建 AI 时代的大数据基础设施。

阿里云资深技术专家于得水表示,MaxFrame 是由阿里云自研的分布式计算框架,支持Python 编程接口,并直接使用 MaxCompute 的计算资源和数据接口,MaxFrame 不仅兼容 Pandas、Xgboost 接口,还自动实现分布式处理,使得 Python 开发者可以更加高效、便捷地在 MaxCompute 上完成大规模数据处理及 ML/AI 数据预处理等工作。

MaxFrame 已于9月27日商业化发布,欢迎感兴趣的朋友测试。

(地址:2024年MaxCompute公告_云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心)

2. 开放多样化

湖仓一体2.0 & OpenLake 协同,汇聚高价值数据。湖仓融合计算性能已达内表性能的70%

湖仓一体2.0 汇聚高价值数据:通过三层模式更广泛的兼容数据源层析模式;通过自动打通网络、自动映射数据源元数据和数据存储服务、兼容开源文件格式等方法,直接挂载外部数据源数据对象,省去建表和更新;将内表性能优化逐步带到湖上,目前湖上计算性能已达内表性能的 70%;融合数据湖之外,MaxCompute 也正在逐步对接 Hadoop 实例、MPP 数据库、RDS 数据库等多种联邦数据源;在读取外部数据的计算价格上也极具竞争力。

湖仓一体2.0 已于9月进入商业化公测阶段,欢迎感兴趣的朋友试用体验。

(地址:如何使用MaxCompute湖仓一体2.0_云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心)

随着基于开放湖仓架构的应用,越来越多面向非结构化数据的需求变得越发重要。建立在开放架构之上 MaxCompute 4.0 也迅速推出具备在湖仓之上多模态非结构数据的数据分析与应用的产品特性 ObjectTable。其功能特性是以结构表的方式描述非结构化数据,简化用户对复杂非结构化数据的使用门槛,并提供完备且高效的数据处理分析能力。

3. 极致性能化

MaxCompute 近实时数仓升级,MCQA2.0 查询加速全新升级,28亿行数据查询1秒返回

云数仓发展到当前阶段,越来越多的客户对延时敏感的近实时链路有广泛且强烈需求。MaxCompute 通过近实时数仓架构不断迭代升级。实现支持实时数据分钟级导入,分析秒级返回。全新推出的 Delta Table 增量表格式。其对上游数据对接方式灵活,支持 Flink Streaming Tunnel 实时写入,支持 FlinkCDC 数据同步,及 DataWorks 实时数据集成等方式。Delta Table 具有全量增量数据统一处理与管理能力,依赖 Primary Key 主键设置,在实现 Upsert 语义的同时又有很好的读写性能, StorageService 管理服务在后台能够提供自动化的增量数据 AutoClustering / AutoCompaction / AutoClean 等操作,可有效降低存储成本,优化对增量数据处理效率。基于 Delta Table 格式之上的异步构建 CDC 能力,增量物化视图(增量 MV )新特性能够提供增量/全量刷新模式。增量物化视图(增量 MV )同时支持多层 Pipeline 构建,级联查询,支持分区增量 MV 等功能,数据新鲜度提升同时,极大简化增量计算 Pipeline 构建流程。

而 MCQA2.0 查询加速引擎全新升级,在基于类似 Virtual Warehouse 强资源隔离模式创建,全链路 Cache 优化,在兼顾大规模数据处理 Throughput 的前提下,扩展支持多种基于 Latency 的 E2E 性能优化。通过 MCQA2.0 将 MaxCompute 的性能提升新的高度。阿里云智能集团资深技术专家谢德军表示,MCQA2.0 查询性能在标准 Benchmark中表现非常出色,MCQA2.0 性能是 MCQA1.0 1.9X,开源版本 Spark 2.7X。28亿行数据查询1秒返回。

同时,MCQA2.0 查询加速引擎在 TPC-DS 测试中,面对复杂 Query 查询与大 Query 多并发提交等复杂场景下其查询表现上无论是性能还是稳定性都更具优势。使用MaxCompute 512CU 对 TPC-DS 的1TB 数据量进行测试,其 Query 平均 E2E 所需时间为 4.7s。

近实时数仓系列特性 ( DeltaTable/ 增量物化视图/ MCQA2.0) ,已在云栖大会期间进入面向企业用户的邀测阶段,欢迎感兴趣的朋友试用体验。

(地址:MaxCompute近实时数仓_云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心)

4. 企业级服务化

安全稳定,提供数据的保密性、完整性、可用性保障。支持 AI 智能化在企业级场景下应用等。

MaxCompute 数据脱敏在最靠近数据的从存储中读取的环节实现,具备高性能和高安全性,确保数据在查询、下载、关联、UDF 计算时已经处于脱敏状态,避免敏感数据泄露风险。

脱敏策略支持掩码、散列、字符替换、数值取整、日期取整等脱敏策略,支持与数据保护伞的数据分类分级功能联动,满足用户对身份信息、银行卡号、地址、电话等数据的脱敏需求。

MaxCompute 以数据保护三要素保密性、完整性和可用性为基础,构建全面的数据安全保护屏障,并提供完善的数据访问控制能力和安全可信的计算环境。通过集群高可用和容灾方案确保业务的连续性,系统详细记录用户操作日志和任务运行日志,供事中运维监测和事后安全审计。MaxCompute 服务建立在阿里云 IaaS 服务之上,利用云基础设施的安全能力,同时能够与云平台相关的安全产品进行联动,如 RAM 访问控制、DataWorks 安全中心、数据保护伞,以实现更加丰富的安全管控场景。

在企业级服务方面,MaxCompute 以其多年在阿里巴巴体系系统优化经验,发布智能数仓产品新能力。其最新发布的智能物化视图 与 Intelligent Tuning 新特性,可帮助用户智能简化查询与系统运维工作。智能物化视图通过智能分析周期性 Pipeline 作业等方式,实现物化视图推荐,简化物化视图生成方式,明显提升查询分析效率。而 Intelligent Tuning 特性更多的是帮助用户自助实现数仓运维优化管理的能力。

5. 总结

毫无疑问,在 2024 年云栖大会上 MaxCompute 所展示的全新四大产品理念与多项技术创新突破,是 MaxCompute4.0 发布以来的产品能力的一次整体展示,是技术产品阶段沉淀后的厚积薄发。在迈向下一代智能云数仓的道路上,MaxCompute 在 Data+AI / 湖仓一体 / 近实时数仓 / 企业级能力四大方向,又走出坚定且扎实一大步。

希望广泛用户在云栖大会上了解 MaxCompute 全新发布后,积极尝试与应用 MaxCompute 新一代智能云产品,为行业与用户提供最优秀的云数仓产品。

二、绝味集团基于阿里云大数据产品构建全域数智增长底座

同时,在云栖大会-商用大数据计算与分析平台专场,绝味集团首席数智增长官谌鹏飞先生也分享了基于阿里云 MaxCompute、Hologres、DataWorks 及实时计算 Flink 版等产品的大数据链路,构建支撑全域数智增长的稳固底座,推动了绝味集团的数字化转型。主要应用在以下几个方面,并取得显著效果:

  • 绝知:大数据+知识库+ AI 赋能店长创新应用,累计使用超过4.1万人,经营效率提升20%;

  • 智能选址:大数据+算法结合,定位黄金商机,选址业绩准确率80.8%;

  • 产品创新:大数据+ AI 洞察产品脉搏,用户画像精准分析;

  • 物流监控:大数据全链路品质管控,促进客户满意度提升了10%以上。


MaxCompute 从2009年诞生至今,作为阿里云最核心的核心战略级云数仓产品之一,一直在进化。现在我们已经发展成一个 EB 级的企业级数仓。阿里集团、蚂蚁集团,还有数万个企业用户像绝味集团一样,都在使用 MaxCompute,构建大数据平台底座推动业务增长,欢迎大家后续关注与使用,谢谢大家!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/444687.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

List子接口

1.特点:有序,有下标,元素可以重复 2.方法:包含Collection中的所有方法,还包括自己的独有的方法(API中查找) 还有ListIterator(迭代器),功能更强大。 包含更多…

Basic Pentesting_ 2靶机渗透

项目地址 plain https://download.vulnhub.com/basicpentesting/basic_pentesting_2.tar.gz 修改静态ip 开机按e 输入rw signie init/bin/bash ctrlx 进入编辑这个文件 vi /etc/network/interfaces修改网卡为ens33 保存退出 实验过程 开启靶机虚拟机 ![](https://img-bl…

C++ -内存管理

博客主页:【夜泉_ly】 本文专栏:【C】 欢迎点赞👍收藏⭐关注❤️ C -内存管理 C/C -内存管理的深入探讨1. 数据存储分类1.1 局部数据1.2 静态数据1.3 常量数据1.4 动态申请的数据 2. 内存区域划分2.1 栈区2.2 堆区2.3 静态区/数据段2.4 常量区…

HTML5--裸体回顾

免责声明:本文仅做分享~ 详情请参考以下: HTML 系列教程 (w3school.com.cn) 菜鸟教程 - 学的不仅是技术,更是梦想! --本文是光秃秃的空壳. 标题标签 段落标签 换行和水平线 文本格式化标签 (一般用左边的&#xff…

抽象工厂模式(Abstract Factory Pattern)

抽象工厂模式(Abstract Factory Pattern)是一种创建型设计模式,它能创建一系列相关的对象,而无需指定其具体类,另一种说法是围绕一个超级工厂创建其他工厂。该超级工厂又称为其他工厂的工厂。它提供了一种创建对象的最…

如何让信息学奥赛学习“边玩边学”?——趣味编程让枯燥学习变得有趣

信息学奥赛(NOI)作为一项高水平的编程竞赛,内容涉及到大量的算法、数据结构和复杂的逻辑思维,对学生的要求非常高。然而,面对枯燥的知识点和高难度的题目,很多学生在备赛过程中容易感到乏味甚至放弃。那么&…

YOLO11改进|SPPF篇|引入SPPFCSPC金字塔结构

目录 一、【SPPFCSPC】金字塔结构1.1【SPPFCSPC】金字塔结构介绍1.2【SPPFCSPC】核心代码 二、添加【SPPFCSPC】金字塔结构2.1STEP12.2STEP22.3STEP32.4STEP4 三、yaml文件与运行3.1yaml文件3.2运行成功截图 一、【SPPFCSPC】金字塔结构 1.1【SPPFCSPC】金字塔结构介绍 下图是…

重学SpringBoot3-集成Redis(一)之基础功能

更多SpringBoot3内容请关注我的专栏:《SpringBoot3》 期待您的点赞👍收藏⭐评论✍ 重学SpringBoot3-集成Redis(一)之基础功能 1. 项目初始化2. 配置 Redis3. 配置 Redis 序列化4. 操作 Redis 工具类5. 编写 REST 控制器6. 测试 AP…

思维训练(数论 + 哈希表 + 贪心)

传送门:Dashboard - Codeforces Round 950 (Div. 3) - Codeforces B. Choosing Cubes(排序) Dmitry has n cubes, numbered from left to right from 1 to n. The cube with index f is his favorite. Dmitry threw all the cubes on the table, and the i-th cube showed t…

【HarmonyOS】HMRouter使用详解(四)路由拦截

路由拦截器 可以对指定或全局路由跳转时添加拦截器,作用是可以实现在页面切换前做判断是否有进入当前页面的权限。这篇文章将实现登录的全局路由拦截样式。 新建拦截器类 通过继承IHMInterceptor接口实现生命周期接口的方法重写。 通过添加HMInterceptor装饰器&…

xss之dom类型

目录 xss关于dom类型 1、闭合方式 2、闭合,直接输入1,成功闭合 上我们的pikachu xss关于dom类型 1、闭合方式 输入123,然后打开f12,审查元素,之前一直没有搞懂为什么要在前面加上个单引号 输入两个双引号&#x…

[C语言] 函数详解:库函数与自定义函数

文章目录 函数的概念库函数和自定义函数库函数使用库函数示例常用库函数及头文件 自定义函数自定义函数的基本结构示例:实现两个数的求和函数自定义函数的好处 函数的返回值有返回值的函数无返回值的函数 函数的声明与调用声明函数在另一个文件中调用函数示例&#…

【永磁同步电机(PMSM)】 9. 滑模观测器(SMO)的算法与仿真

【永磁同步电机(PMSM)】 滑模观测器(SMO)的算法与仿真 1. 滑模观测器的基本原理2. 滑模观测器的数学模型2.1 PMSM 的数学模型2.2 滑模观测器的设计 3. 基于反正切(ATAN)的滑模观测器3.1 反正切函数3.2 基于…

使用aloam跑hesai Pandar-XT32激光雷达数据

参考自利用aloam跑数据集_aloam数据集-CSDN博客 第一步:查看bag的信息 输入rosbag info来查看bag包的信息: joeyjoey-Legion-Y7000P-IRX9:~$ rosbag info /home/joey/Downloads/data2022/indoor/LiDAR_IMU.bag path: /home/joey/Downloads/da…

在 Qt 中实现可拖动的无边框 MainWindow 并设置圆角效果

在应用程序的界面设计中,很多时候我们希望窗口能够拥有更好的视觉效果,比如设置圆角以及去除默认的标题栏,使窗口看起来更加美观。此外,还需要支持用户通过鼠标拖动窗口。在本文中,我们将详细介绍如何在 Qt 中实现这些效果。 如图: 一、设置无边框窗口 Qt 提供了 Qt::F…

游离的 HEAD 如何解决

简介 问题描述:使用 IDEA 在提交代码时,禁止提交 如何解决:迁出分支再提交,最后合并到 main 或 master 上 如何解决

kali在git外网的代理

如果发现用git无法直接连接到某些外网项目。可以配置一下代理。 vi /etc/proxychains4.conf 主机可以开一下机场代理&#xff0c;查一下主机的地址和代理所开的端口&#xff0c;我这里是7890 写上代码&#xff1a; socks5 <your ip> <your port> 写上之后wq保…

鸢尾花书实践和知识记录[6-23数据聚类]

文章目录 思维导图数据聚类和引例基于图论的聚类算法算法流程1构造数据构造距离矩阵相似度相似度矩阵创建图 拉普拉斯矩阵标准拉普拉斯矩阵(Combinatorial Laplacian)归一化拉普拉斯矩阵 (Normalized Laplacian)无标度拉普拉斯矩阵 (Signless Laplacian)归一化对称拉普拉斯矩阵…

C++入门基础知识107—【关于C++continue 语句】

成长路上不孤单&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a; 【14后&#x1f60a;///C爱好者&#x1f60a;///持续分享所学&#x1f60a;///如有需要欢迎收藏转发///&#x1f60a;】 今日分享关于C continue 语句的相关内容&#xff01;…

【Node.js】图片水印

上传时加水印 用户上传原始图片->服务器&#xff1a;保留原始图片以及水印图片动态水印 用户上传原始图片->服务器&#xff1a;只保留原始图片 请求图片时&#xff0c;服务器动态加水印 根据业务需求自行更改操作&#xff0c;下面只讲最简单的给图片加水印。 主要使用到…