新一代湖仓集存储,多模型统一架构,高效挖掘数据价值

星环科技TDH一直致力于给用户带来高性能、高可靠的一站式大数据基础平台,满足对海量数据的存储和复杂业务的处理需求。

同时在易用性方面持续深耕,降低用户开发和运维成本,让数据处理平民化,助力用户以更便捷、高效的方式去挖掘数据价值。

基于这样的宗旨,星环科技TDH正式发布了9.3版本。

推出了新一代湖仓集存储格式Holodesk,一份数据满足数据湖的离线实时接入、数仓的复杂加工以及数据集市的分析需求。

避免数据冗余,减少数据流转,提升业务综合性能与时效性。

同时,分布式计算引擎实现了向量化升级,综合性能大幅度提升。

此外,TDH 9.3对多模型统一技术架构进行了迭代升级,全新发布分布式向量数据库Transwarp Hippo。

共支持11种模型数据统一存储管理,用统一查询处理语言完成跨模型数据流转与关联分析,让业务开发更加便捷。

新一代湖仓集一体架构

打破湖仓集边界

传统湖仓集混合架构,需要部署多个平台进行数据存储,造成数据冗余和存储资源浪费。

其次,数据需要跨平台ETL流转,流转开销高,时效性较差。数据跨平台流转中还容易导致不⼀致,影响业务正确性。

此外,多平台的开发标准不一致,存在一定的技术门槛,权限管理复杂。

当需要跨层数据时,严重依赖其他部门的数据⼯程师、数据科学家来加⼯数据,对数据分析师来说,数据分析探索的效率大大降低。

TDH9.3 打破数据湖、数据仓库、数据集市的边界,基于湖仓集一体平台,所有人都可以访问实时的数据、历史的数据、原始的数据、加工过的数据。

如业务分析师可以直接访问最原始的数据,数据工程师可以更高效地建模,数据科学家可以横跨不同的数据源进行数据分析和挖掘。

基于TDH9.3湖仓集一体架构,各种类型的数据通过数据集成工具,通过离线或者实时的方式加载到TDH中,结构化数据统⼀由Holodesk来承载湖仓集的存储。

通过统⼀SQL引擎和统⼀计算引擎,实现湖仓集数据的统⼀处理、查询、加工,支撑多种应⽤场景。

配合统⼀的运维、审计、权限、告警等功能实现平台的统⼀管理,避免重复建设。

一种存储格式,满足湖仓集关系型数据存储需求

TDH 9.3将之前的⾼性能存储格式Holodesk进行了重构,只需一个存储格式即可同时满足湖仓集的数据接入、数仓加工和高性能数据分析。

在全新的存储引擎下,可以将湖仓集的所有数据都放在统一的存储格式里,不需要针对不同的建设去使用不同的存储引擎。

能够同时⽀持离线批量数据和实时数据的接入,同时也支持高性能的模型加工、批处理、在线分析等计算需求。

相比ORC,更多功能、更高性能 相比于之前版本的ORC事务表,TDH9.3的Holodesk具有更多的功能和更高的性能。

  • 无需手工分桶:ORC事务表需要手动分桶,对开发和运维人员是非常大的挑战。TDH9.3 Holodesk不需要手动分桶,存储引擎自动做数据切片和分布式,用户无需关注分桶数,大幅简化了建表流程和成本。
  • 非分桶文件自动合并:Holodesk具有更灵活,更多策略的文件管理系统,自动将任意的非分桶文件按照合适的大小进行合并,避免桶文件过大或过小的情况,减少运维上的投入。
  • 高频实时数据写入:实时场景下,Holodesk支持实时流计算引擎Slipstream的实时数据写入和Batch Insert批量写入,满足数据湖的实时数据接入需求。
  • 性能数倍提升:Holodesk的IO性能是ORC事务表的10倍以上,在TPC-DS 1TB数据集测试中,相⽐于ORC事务表,TDH 9.3 Holodesk的性能提升了3倍。

相比开源湖仓,创新技术降本增效 相比于开源湖仓技术,如Hudi / Iceberg等,TDH湖仓集一体在多项技术方面实现了提升和创新,帮助用户降低开发运维成本,提高开发分析效率,提升数据处理分析性能。

  • 四种事务隔离级别:开源湖仓技术一般是基于快照的事务隔离,而TDH支持完整四种事务隔离级别,特别是在复杂的高并发比数仓业务场景下,用户可以根据业务需求调整事务隔离级别,满足不同事务处理的要求。
  • 小文件灵活、自动合并:开源湖仓技术小文件需要手工合并管理,需要通过代码来调⽤,维护成本较⾼。TDH具备灵活的多策略、独⽴资源来自动合并小文件,维护成本更低,读取性能更好。
  • 实时数据快速读写:开源湖仓技术的实时数据写入基于Merge on Read,虽然写得快,但读起来很慢。TDH9.3优化了实时数据写入的合并逻辑,避免大量文件在读时再合并,实现写快读快,具有更好的分析和加工性能。
  • 无需流转,湖仓集一体化存储:开源湖仓技术在集市分析场景下需要流转到外部分析引擎中,而基于TDH9.3的湖仓集一体架构,实现了湖仓集统一存储格式,数据⼀体化存储不冗余,也无额外数据流转开销,整体系统复杂度更低,综合时效性和性能更强。

向量化计算引擎升级,引入CodeGen技术

TDH9.3在存储升级的同时,向量化计算引擎引入了CodeGen代码生成技术,将复杂的、高开销的算⼦代码⽣成为能更⾼效调⽤GPU指令集的Native Code。生成的Native Code逻辑更简单。

避免了多余的运算和函数调⽤,运⾏更⾼效,同时Native引擎也不会GC(垃圾回收),避免因GC导致性能降低。

综合性能大幅提升,再破TPC性能巅峰

TDH是全球首个通过TPC-DS基准测试并经官方审计的产品,此次存储和计算引擎的双重升级,在TPC标准测试集中,TDH再⼀次突破了TPC-DS、TPC-BB、TPCx-HS 3个测试集的性能。

  • 在TPC-DS 10TB测试集中,TDH⽐当前公开的最好成绩,性能提升了27%。
  • 在TPC-BB 3T测试集中,TDH是当前公开的最好成绩的2倍,同时系统成本降低了67%。
  • 在TPC-HS 3T测试集中,TDH比当前公开的最好成绩,性能提升3%,同时系统成本降低了69%。

此外,经过很多实际业务的验证,通过将CDH业务迁到TDH上,简单的业务加工性能是CDH的1.26倍,复杂业务加工是2.69倍,并发跑批是2倍,业务查询是1.66倍。而在替换开源数据库GP后,TDH在复杂分析上基本上能实现4-9倍的性能提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/267057.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Springboot 项目读取yaml的配置文件信息给静态方法使用,以及通过配置 ResourceBundle 类读取config.properties

读取yaml 的配置文件 配置文件信息 iot_saas_tenement:user_id: 7........8d9bprivate_key: MII.......qQbj_url: http://4.....5:8088project_name: iot_s.......rojectdevice_name: te.....ice 创建一个类 ProxyProperties 读取配置文件信息,并对外提供get方法 …

PaddleOCR 高精度文字识别:丰富多样的前沿算法 | 开源日报 No.187

PaddlePaddle/PaddleOCR Stars: 34.1k License: Apache-2.0 PaddleOCR 是一个丰富、领先和实用的 OCR 工具库,旨在帮助开发者训练更好的模型并将其应用到实际场景中。该项目具有以下特点和优势: 支持多种 OCR 相关前沿算法提供产业级特色模型 PP-OCR、…

大数据毕业设计之前端04:管理系统为什么要自己实现图标组件

关键字:BuildAdmin、Icon、图标、Vue、ElementUI 前言 说到图标,在BuildAdmin中用到的地方很多。比如上一篇中的折叠图标,还有菜单栏图标、导航菜单栏图标等。常见的图标有:ElementUI图标、font-awesome、iconfont阿里图标以及本…

【数据库管理系统】Mysql 8.0.36入门级安装

下载地址 官方网址:MySQL 注意事项 建议不要安装最新版本,一般找mysql5.0或mysql8.0系列版本即可;mysq1官网有.zip和.msi两种安装形式;zip是压缩包,直接解压缩以后使用的,需要自己配置各种东西&#xff…

就业班 2401--3.1 Linux Day9--文件查找和压缩

一、文件查找与打包压缩 grep: 文件内容过滤 [rootqfedu.com ~]# grep root /etc/passwd #从/etc/passwd文件中过滤root字段 grep ^root root$ root:x:0:0:root:/root:/bin/bash operator:x:11:0:operator:/root:/sbin/nologin 查找命令 [rootqfedu.com ~]# which ls ali…

MyBatis 学习(四)之 SQL 映射文件

目录 1 SQL 映射文件介绍 2 select 元素 3 insert 元素 4 update 和 delete 元素 5 sql 元素 6 parameterType 元素 7 resultType 元素 8 resultMap 元素(重要) 9 参考文档 1 SQL 映射文件介绍 映射器是 MyBatis 中最复杂并且是最重要的…

章鱼网络 Community Call #18|Omnity 将首先支持 Runes 协议资产跨链

香港时间2024年2月8日12点,章鱼网络举行第18期 Community Call。 2024年,我们打开一个良好的局面:$NEAR Restaking 已经完成第三方审计,并且经过几次迭代,进入了正式稳定运行的阶段。更重要的是,我们宣布了…

AI Word Helper (Chorme Extentions) AI单词助手(谷歌浏览器插件)

AI Word Helper (Chorme Extentions) AI单词助手(谷歌浏览器插件) 英文网站,划词查单词,还是看不懂?因为单词意思那么多,词性搞不清,上下文搞不清,出来的意思就没法用,G…

Tomcat 架构

一、Http工作原理 HTTP协议是浏览器与服务器之间的数据传送协议。作为应用层协议,HTTP是基于TCP/IP协议来传递数据的(HTML文件、图片、查询结果等),HTTP协议不涉及数据包(Packet)传输,主要规定了…

汇编反外挂

在软件保护领域,尤其是游戏保护中,反外挂是一个重要的议题。外挂通常指的是一种第三方软件,它可以修改游戏数据、操作游戏内存或提供其他作弊功能,从而给玩家带来不公平的优势。为了打击外挂,游戏开发者会采取一系列措…

PyQt6的开发流程(密码生成小程序为例)

PyQt6的开发流程(密码生成小程序为例) 文章目录 PyQt6的开发流程(密码生成小程序为例)一、流程介绍与概览1. 界面与逻辑分离的开发流程2. PyQt6的开发流程 二、打开 designer.exe 创建文件三、用QT设计师绘制界面保存成ui1. QT常用…

Python实现MACD工具判断信号:股票技术分析的工具系列(1)

Python实现MACD工具判断信号:股票技术分析的工具系列(1) 介绍代码rolling函数介绍核心代码计算指数移动平均值计算MACD指标 完整代码 介绍 先看看官方介绍: MACD (平滑异同平均线) 指标说明 DIF线:收盘价短…

“智农”-数字乡村可视化

“智农”打造数字乡村可视化,结合乡村区域实际情况,以规划完善乡村机制体系和更好服务乡村振兴为目标,坚持可持续、可复制、可扩展的建设原则,着力解决农村信息孤岛,提高农村种植技术,加快农村信息化和产业…

前端按钮动画

效果示例 代码示例 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdevic…

echarts vue 动画效果的水球图、波浪图教程

1、安装插件 前提是已经安装了echarts&#xff08;我的版本是4.2.1&#xff09; npm install echarts-liquidfill --save 我安装了3.1.0版本的&#xff0c;结果运行时报错"TypeError: wave.ensureState is not a function" 原因&#xff1a;echarts版本和echarts-l…

IDC 中搭建 Serverless 应用平台:通过 ACK One 和 Knative 玩转云资源

作者&#xff1a;元毅、庄宇 如何打造云上&#xff08;公共云&#xff09;、云下&#xff08;IDC 数据中心&#xff09;统一的云原生 Serverless 应用平台&#xff0c;首先我们来看一下 ChatGPT 4 会给出什么样的答案&#xff1a; 如何打造云上、云下统一的云原生 Serverless…

MySQL 多表查询 连接查询 内连接

介绍 内连接查询是两张表中交集的部分 连接模式 隐式内连接 SELECT 字段列表 FROM 表1,表2 WHERE 条件显式内连接 SELECT 字段列表 FROM 表1 [INNER] JOIN 表2 ON 连接条件案例 有两张表一个表为学生表&#xff0c;另一个表为班级表&#xff0c;现在需要查询学生时候在查…

2023中国PostgreSQL数据库生态大会:洞察前沿趋势,探索无限可能(附核心PPT资料下载)

随着数字化浪潮的推进&#xff0c;数据库技术已成为支撑各行各业数字化转型的核心力量。2023中国PostgreSQL数据库生态大会的召开&#xff0c;无疑为业界提供了一个深入交流、共同探索PostgreSQL数据库技术未来发展趋势的平台。本文将带您走进这场盛会&#xff0c;解析大会的亮…

Laravel Octane 和 Swoole 协程的使用分析二

又仔细研究了下 Octane 源码和 Swoole 的文档&#xff0c;关于前几天 Laravel Octane 和 Swoole 协程的使用分析中的猜想&#xff0c;得到进一步验证&#xff1a; Swoole 的 HTTP Server 启动后会创建一个 master 进程和一个 manager 进程&#xff1b;master 进程又会创建多个…

XUbuntu22.04之解决:仓库xxx没有数字签名问题(二百一十七)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…