袋鼠云产品功能更新报告11期|能力AI+,实力拿捏!

本期,我们更新和优化了离线AI+、实时AI+、实时湖仓CDC入湖等功能,为您提供更高效、更智能的产品能力。以下为第11期袋鼠云产品功能更新报告,请继续阅读。

报告速览

  • 离线AI+:智能代码优化、智能注释、智能解释、Text 2 SQL 以及日志智能解析
  • 实时AI+:推出 “栈语妙编” 模块,提供聊天式交互体验,大幅提升 SQL 开发效率
  • 实时湖仓CDC入湖:Flink CDC 3.x技术深度融合,确保对MySQL数据库的实时、高效数据采集与入湖
  • 引擎适配:Doris、StarRocks 3.x

01 离线开发,重点更新

【离线开发】离线AI+功能

数栈「离线开发平台」实现了AI能力的对接,上线了智能代码优化、智能注释、智能解释、Text 2 SQL 以及日志智能解析等多项强大功能。

(1)代码智能分析

  • 智能代码优化:自动分析和优化SQL代码,提升代码质量
  • 智能注释:依据代码内容自动生成任务注释,辅助代码规范编写
  • 智能解释:依据代码内容进行代码功能解析,帮助开发者理解代码逻辑

file

(2)基于自然语言的SQL生成

数栈支持对接开源或闭源模型,实现复杂场景下的 Text2SQL 功能,并支持关联平台的表结构作为 prompt,可更准确地生成 SQL 语句,提升开发效率。目前,已经支持了 Hive、Spark、MySQL、Oracle、StarRocks、Doris 等计算引擎的 Test2SQL 能力。

file

(3)日志智能解析

数栈目前已经支持了 Hive、Spark、数据同步、Python、Shell、MySQL、Oracle、StarRocks、Doris 等任务类型的日志智能解析能力。自动解析各种类型的日志文件,提取关键信息,并进行结构化和语义化分析,帮助用户更高效地排查问题。

file

【离线开发】-Hive SQL临时查询运行速率优化

在Hive SQL中新增了一个「下载结果」的单选按钮,允许用户根据需求选择是否下载查询结果。当用户选择不下载结果时,可以显著提升Hive SQL的执行速率。

file

对于复杂的查询任务,在进行了这项优化之后,其执行耗时大幅缩短至原来的约一半。这是因为任务直接查询,有效减少了提交yarn队列和获取yarn任务结果的等待时间。

file

03 【离线开发】-在自定义调度日期中灵活设置调度模式

在之前的版本中,当任务选择了自定义调度周期时,只能设置按天调度的执行时间,而无法进一步根据自定义的日历设置小时和分钟级别的调度,限制了灵活性并难以满足多样化的客户需求。数栈V6.2解决了这一问题,现在支持在任务中灵活设置天、时、分钟三种调度模式。 当选择的自定义调度周期为天日历时,可以进行实例批次的选择。选择“单批次”代表计划日期内仅可指定一个计划时间运行实例,选择“多批次”则代表计划日期内可以指定多个计划时间运行实例。

例如,上传自定义调度日历,2023-12-21,2023-12-22,2023-12-24等日期为自定义调度日期。 选择单批次并指定具体时间为00时00分,则代表2023-12-21 00:00 , 2023-12-22 00:00,2023-12-24 00:00为调度计划时间。

file

选择多批次并填写时间,如08:23,15:00,19:47,则代表2023-12-21 08:23 , 2023-12-21 15:00,2023-12-21 19:47, 2023-12-22 08:23 , 2023-12-22 15:00,2023-12-22 19:47,2023-12-23 08:23 , 2023-12-23 15:00,2023-12-23 19:47,为调度计划时间。

file

04【离线开发】-补数据支持设置执行时间

以下是两个企业经常遇到的场景:

场景一

当业务场景中需要频繁更新数据时,企业希望能够对Spark SQL任务实现自动化的数据重跑,例如每天自动重跑前七天的数据。如果每天手动进行补数据操作,对于任务量大的企业来说非常繁琐且低效。

场景二

某些企业为了避免影响日常周期任务的正常运行,通常会选择在凌晨进行补数据操作,但这也意味着需要人工干预。

数栈V6.2通过支持周期补数据和定时补数据功能很好地满足了以上两个场景的企业需求。同时,运维中心新增「补数据任务」菜单,可统一管理「补数据任务管理」和「补数据任务实例」页面。

  • 立即运行补数据实例

file

  • 定时运行补数据实例

file

  • 周期运行补数据实例

file

  • 周期补数据任务运维

file

  • 立即补数据&定时补数据任务运维

file

05【离线开发】项目级Kerberos生效范围变更

数据同步、数据预览、SQL任务运行提交、本地数据上传,以上场景涉及到的Hadoop meta数据源,若在项目中和集群中都上传了Kerberos票据信息,将会使用项目级Kerberos票据信息进行校验,确保项目级Kerberos认证可以管控到表查询数据预览的内容。

file

【实时开发】重点更新

01【实时开发】实时AI+功能

数栈「实时开发平台」成功融合 AI + 功能,全新推出的 “栈语妙编” 模块,为用户提供聊天式交互体验。该模块凭借 SQL 优化、SQL 注释以及 SQL 解释等功能,大幅提升 SQL 开发效率。

SQL 优化

在 IDE 编辑器中,你可以选取需要进行优化的 FlinkSQL进行操作。当 AI 完成 SQL 优化后,会主动弹出优化后的 SQL 与原 SQL 的对比图。该功能支持 SQL 的重复优化,也支持对优化后的 SQL 进行手动修改,同时还支持在“栈语妙编”中重复对比 SQL。

该功能能够显著提高SQL执行性能、降低资源消耗、提升用户体验并增强系统稳定性,为您的实时数据分析场景提供强大的支持。

file

SQL 注释

当您利用 AI 完成 SQL 注释后,“栈语妙编”中会主动弹出已添加注释的 SQL。该功能能够极大地提升代码的可读性与可维护性,帮助开发者更加深入地理解和高效管理 SQL 代码,提高开发效率。

file

SQL 解释

在数据开发过程中,当使用IDE编辑器处理FlinkSQL任务时,您可以通过选择“SQL解释”选项,来请求AI进行代码解析。解析完成后,结果会在“栈语妙编”中进行展示,便于开发者快速把握代码逻辑和功能。该功能在降低开发和维护成本的同时,还能促进团队协作。

file

02【实时开发】-实时湖仓CDC入湖

对实时数据采集能力进行了全面升级,深度融合了Flink CDC 3.x技术,实现了对MySQL数据库的实时、高效数据采集与入湖。

  • 引入Flink CDC 3.x 技术,确保对MySQL数据变更的实时捕捉与传输

  • 实时采集MySQL数据源,通过Flink CDC技术直接将数据变更流写入Paimon表,实现数据的无缝对接与快速入湖

  • 实时采集MySQL还原范围支持增量方式和全量+增量方式,满足不同场景下的需求

  • 实时采集Paimon下游表支持三种写入方式:手动选表、相同表名、自定义表名

  • 实时采集Paimon下游表支持分区表自动创建,提升查询性能与数据管理效率

file

03【实时开发】-数据源相关优化

(1)Flink1.16 全面支持实时采集未支持向导模式的数据源

当前支持来源表包括ClickHouse、DM For Mysql、DM For Oracle、OushuDB,统一支持写入Kafka。

在Flink 1.16中,对于已支持的数据源,脚本模式已支持但向导模式未支持的情况,引入可视化配置功能可降低用户的操作难度和复杂性。

当前支持数据源:

  • Vertica:维表

  • Phoenix5.x: 维表

  • greenplum:维表、结果表

  • db2:维表、结果表

  • dm: 维表、结果表(for mysql、for oracle)

  • gbase:维表、结果表

数栈V6.2其他功能优化说明

01 【离线开发】引擎适配

  • Doris适配:离线支持基于Doris的周期任务、数据同步、手动任务、临时查询、函数管理、存储过程、代码模版等功能

  • StarRocks 3.x适配:离线支持作为计算引擎,支持数据同步读写

02 【离线开发】数据同步

  • ES数据同步优化:支持批量读取index,支持地理位置字段类型

  • iceberg:支持iceberg0.13数据同步

03 【离线开发】数据开发

  • SQL编辑器升级:主要针对语法高亮、错误飘红、语法自动补全的场景进行了补全

  • Spark SQL函数注册优化:用户在创建函数时自动判断函数类型为spark/hive udf

  • HDFS表查询优化:对Split的分片处理逻辑进行调整,在表数据量较大时保障查询效率

  • SQL基础功能补全:临时运行、系统函数、自定义函数、执行计划等功能各计算引擎补全

  • 支持物化视图:在Spark3.2.2版本创建的Spark SQL任务支持物化视图相关语法

  • 创建项目与Schema关联解绑:创建项目时,项目支持不对接并且不创建Schema

  • 支持任务回收站:新增「回收站」模块,在删除任务时可以选择「彻底删除」或「移至回收站」,用户可在回收站中恢复已删除任务

  • Hive脱敏改造:修复了复杂查询脱敏不生效的问题

04 【实时开发】实时湖仓

  • 同租户下创建HMSCatalog下表显示不同项目的应用关系

  • 湖表通过后端文件配置项控制表展示等操作,支持展示在其他平台或底层创建的表,且对表的增删改查操作进行限制

  • 实时湖仓FlinkSQL使用Paimon作为数据源时,增加了任务运行中数据的输入输出RPS、TPS、脏数据等数据曲线指标以及运行时输入输出的数量指标

  • 湖仓创建catalog时可以指定存储路径而不是按默认的路径进行存储,增加必填warehouse项,回填hive-site文件内warehouse地址

  • 实时湖仓hive适配2.1版本

  • Flink1.12支持DTCatalog&IcebergCatalog

  • 湖表查询优先使用Mysql元数据存储查询方式,尝试失败后使用原有的HMS API查询方式

05 【实时开发】数据开发

  • 发布功能优化:任务导入检查流程可视化,设置发布包校验弹窗,降低发布失败概率

  • 任务交互优化:在发布包二次导入任务时,自动应用已导入任务的环境参数,并在一键提交功能中增加任务查看选项,同时允许选择任务调度策略

  • 转自定义模版功能:在FlinkSQL任务中添加转自定义模版功能,将预览中的SQL内容在自定义模版的SQL代码中展示,自动将数据赋值

  • 引用关系优化:优化增加引用关系页面,能够查看到资源与函数(PyFlink、Flink)和任务之间的绑定关系

  • 脚本预览功能:FlinkSQL&实时采集向导模式增加脚本预览功能,前端支持功能包含搜索、复制、read-only、下载

  • 字段自动补全功能:支持源表、维表以及结果表等的字段在 SQL 编辑器 IED 进行编辑时实现字段自动补全功能

06 【实时开发】数据源

  • FlinkSQL1.16支持Hive2.x结果表支持二级分区和动态分区

  • 实时平台适配kafka3且支持kerberos认证

07 【数据服务】数据源

  • 支持Doris 2.x数据源

  • 支持DMDB 8数据源

《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057?src=szsm

《数栈产品白皮书》下载地址:https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm

想了解或咨询更多有关大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szcsdn

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/407375.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端面试题整理-webpack

实现前端模块化,将多个 js,打包成一个 bundle.js (其他类型文件交由各自的 loader 处理) 1. webpack 了解吗?大概介绍一下 一种打包工具,实现前端模块化,将多个 js,打包成一个 bundle.js (其他类型文件交…

婚恋交友系统该如何制作成品系统?

制作婚恋交友系统的成品系统是一个综合性的过程,涉及多个关键步骤和技术要点。以下是一个详细的制作流程: 1. 需求分析 市场调研:首先需要对婚恋交友市场进行深入调研,了解目标用户群体的需求、喜好、习惯以及市场痛点。用户画像…

进程创建:fork函数

fork函数 在Linux系统中&#xff0c;fork函数是用于创建一个新的进程的函数。调用fork函数会创建一个新的进程。 fork函数的原型如下&#xff1a; #include <unistd.h>pid_t fork(void);fork函数没有参数&#xff0c;返回值是一个pid_t类型的值。在成功创建新的进程后…

官方强烈建议更新,关键漏洞影响GitHub Enterprise Server 所有版本

近日&#xff0c;GitHub Bug Bounty 计划报告了一个影响 GitHub Enterprise Server&#xff08;GHES&#xff09;当前所有支持版本的关键漏洞&#xff08;CVE-2024-6800&#xff09;&#xff0c;该漏洞可能允许攻击者获得对该实例内容的无限制访问。目前&#xff0c;漏洞已经解…

Q*算法深度猜想:从Q-learning优化到智能决策

Q*算法深度猜想&#xff1a;从Q-learning优化到智能决策 引言 在强化学习&#xff08;Reinforcement Learning&#xff09;中&#xff0c;Q-learning算法作为一种无模型的学习方法&#xff0c;被广泛应用于解决各种决策优化问题。然而&#xff0c;尽管Q-learning在许多场景下…

docker容器基本命令、docker进入容器的指令、容器的备份、镜像底层原理、使用commit命令制造镜像、将镜像推送到阿里云镜像仓库与私服仓库

除了exit 还有 ctrlpq exit退出停止 ctrlpq 退出不停止 将本地镜像推到阿里云 登入阿里云 容器镜像服务 实力列表 镜像仓库 创建镜像仓库 安装里面步骤来 这里192.168.10.145这部分用自己ifconfig地址

6款ai伪原创软件app,自动生成文章效率更高

在当今信息爆炸的时代&#xff0c;内容创作的需求日益增长。无论是专业的写手、自媒体从业者&#xff0c;还是企业的营销人员&#xff0c;都在不断寻求提高创作效率的方法。而ai伪原创软件app的出现&#xff0c;为创作者们带来了新的解决方案。下面就为大家介绍6个强大的ai伪原…

CICD持续集成持续交付部署

一、CICD概念 1、什么是CI/CD&#xff1f; 通俗来说就是启动一个服务&#xff0c;能够监听代码变化&#xff0c;然后自动执行构建、测试、打包、发布等流程&#xff1b; 2、CI 持续集成 指在开发人员频繁地提交新代码&#xff0c;都会自动执行构建、测试。根据测试结果&…

6.登录功能的开发——获取当前用户、用户退出

登录功能的开发——获取当前用户、用户退出 一、获取当前用户1.1后端处理1.2前端处理 二、用户的退出2.1后端2.2前端 一、获取当前用户 在上一篇文章&#xff0c;我们实现了用户的的登录&#xff0c;但是后续并没有处理完整&#xff0c;比如登录成功后你要跳转回原来的的页面吧…

酷家乐 同盾滑块分析

声明: 本文章中所有内容仅供学习交流使用&#xff0c;不用于其他任何目的&#xff0c;抓包内容、敏感网址、数据接口等均已做脱敏处理&#xff0c;严禁用于商业用途和非法用途&#xff0c;否则由此产生的一切后果均与作者无关&#xff01; 有相关问题请第一时间头像私信联系我…

Linux 软件编程 数据库与网页

sqlite3数据库操作效率&#xff1a; 1.增加事务机制 2.关闭数据库磁盘同步写入 3.使用预处理SQL语句机制实现提升数据库效率 事务机制&#xff1a; 1.可以提高sqlite处理数据的效率 2.确保数据的一致性 关闭数据库中写同步机制&#xff1a; 在…

【GH】【EXCEL】P3: Set Conditional Formatting To Excel Data By Gh

文章目录 conditional formattingdata sourceConditional ScaleConditional Scale Conditional PercentConditional Top Percent Conditional AverageConditional Average Multiple ConditionsConditional BarConditional Bar Conditional UniqueConditional Unique Conditiona…

推荐一个完全自由的目录设计网站

引言 如果我们能通过网站出一本书&#xff0c;这将是一件很酷的事。 事实上&#xff0c;我们通过网站发布知识&#xff0c;最常见的是写博客。 这二者有什么区别呢&#xff1f; 书本的知识内容有很强的逻辑性、系统性。而博客是随心所欲的&#xff0c;一时灵感来了就写一篇…

鸿蒙(API 12 Beta3版)【使用ImagePacker完成图片编码】图片开发指导

图片编码指将PixelMap编码成不同格式的存档图片&#xff08;当前仅支持打包为JPEG、WebP 和 png 格式&#xff09;&#xff0c;用于后续处理&#xff0c;如保存、传输等。 开发步骤 图片编码进文件流 创建图像编码ImagePacker对象。 // 导入相关模块包 import { image } fr…

《计算机操作系统》(第4版)第6章 输入输出系统 复习笔记

第6章 输入输出系统 一、I/O 系统的功能、模型和接口 1.I/O 系统的基本功能 (1)隐藏物理设备的细节。 (2)与设备的无关性。 (3)提高处理机和I/O 设备的利用率。 ( 4 ) 对I/O 设备进行控制。 (5)确保对设备的正确共享。 (6)错误处理。 2.I/O 系统的层次结构和模型 (…

Stability AI发布了单目视频转4D模型的新AI模型:Stable Video 4D

开放生成式人工智能初创公司Stability AI在3月发布了Stable Video 3D&#xff0c;是一款可以根据图像中的物体生成出可旋转的3D模型视频工具。Stability AI在7月24日发布了新一代的Stable Video 4D&#xff0c;增添了赋予3D模移动作的功能。 Stable Video 4D能在约40秒内生成8…

[数据集][目标检测]手钳检测数据集VOC+YOLO格式141张1类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;141 标注数量(xml文件个数)&#xff1a;141 标注数量(txt文件个数)&#xff1a;141 标注类别…

5G+工业互联网产教融合创新实训室解决方案

一、建设背景 随着第五代移动通信技术&#xff08;5G&#xff09;的快速普及和工业互联网的迅猛发展&#xff0c;全球制造业正面临着前所未有的深刻变革。5G技术凭借其超高的传输速率、极低的延迟以及大规模的连接能力&#xff0c;为工业自动化、智能制造等领域带来了革命性的…

访客管理系统 对接微信公众号,发送通知消息

微信公众号模板消息 - 要实现的效果图 1 公众号设置对接的域名 打开【公众号设置】 公众号设置域名&#xff0c;需要先用http server做安全验证。 安全验证成功后&#xff0c;域名配置完毕。 2 获取公众号APPID 和 Secret 3 开通模板消息 官方审核需要2-3日 4 设置IP白名单&…

芯片后端之 PT 使用 report_timing 产生报告 之 -nets 选项

今天,我们再学习一点点 后仿真相关技能。 那就是,了解 report_timing 中的 -nets 选项 。 如果我们仅仅使用如下命令,执行后会发现: pt_shell> report_timing -from FF1/CK -to FF2/d -delay_type max 我们使用命令 report_timing 报出的如上路径延时信息,仅仅显示…