助力降本增效,ByteHouse打造新一代云原生数据仓库

随着数据量的爆炸式增长、企业上云速度加快以及数据实时性需求加强,云原生数仓市场迎来了快速发展机遇。

据 IDC、Gartner 研究机构数据显示,到 2025 年,企业 50% 数据预计为云存储,75% 数据库都将运行在云上,全球数据处理预计有 30% 为实时数据处理,80% 数据预计为非结构化数据,这将驱使云原生数仓愈加受到企业青睐。

近期,火山引擎云原生数据仓库 ByteHouse 产品负责人李群受邀出席“CSDI summit 中国软件研发创新科技峰会”,围绕“新一代云原生数仓 ByteHouse 关键技术与最佳实践”主题,从云数仓历史和前沿出发,介绍 ByteHouse 整体架构、关键亮点、性能突破、存算分离的关键设计,以及 ByteHouse 在抖音集团内外多样化场景中的业务实践。

基于 ByteHouse 在金融、游戏、泛互联网等多行业的经验总结,李群首先介绍了云原生数据仓库目前面临的难点和挑战。高性能、高并发、高吞吐写入,已经是当今企业对云数仓的基础需求。随着互联网不断发展,数据增长迅速,特别是埋点日志类数据,一些较为活跃的 APP,每天数据达到百亿甚至千亿级别,大规模杀手级应用每天更是产生数千亿事件量。这要求数据平台不仅要支持高吞吐写入、实时去重,面对业务请求还要达到毫秒级响应。

除此之外,企业还面临数据架构复杂、灵活性欠缺、成本控制难的问题。例如,为了实现一个数据分析功能,企业可能需要引入三、四个甚至更多的组件来构建,导致扩容较难、运维压力大,人力维护成本高。

为了解决以上问题,ByteHouse 首先在性能上实现突破。在复杂查询上,ByteHouse 从 RBO(基于规则的优化能力)、CBO(基于代价的优化能力)、分布式计划生成方面推出了自研优化器,能够准确的计算出效率最大化执行路径,大幅度降低用户查询时间。除此之外,ByteHouse 还从 Exchange、Runtime Filter 以及并行化重构等方向进行了优化。针对实时吞吐慢、BI 报表慢、离/在线复杂分析慢、湖+仓联邦分析慢、人群圈选慢、以图搜图慢六大场景,ByteHouse 都推出了定制解决方案,并在客户实际场景中产生实效。

在提升效率同时,ByteHouse 也专注于帮助用户节省成本。基于 ByteHouse 弹性伸缩能力,用户只需基于时间、资源负载等条件就能进行扩容、缩容配置,减轻手动管理的负担,提升资源利用率。在存储层面, ByteHouse 采用 Serverless 架构,具有低成本、无限扩展的能力。在计算层面,ByteHouse 则基于 PaaS 模式,通过容器化实现无状态或弱状态,将整个计算组包装成租户和应用呈现给用户,保证租户之间不会发生资源征用冲突或性能劣化,让计算资源在秒级内实现弹性拉起和弹性扩缩容。

最后,为了给用户提供更便捷的使用体验,ByteHouse 也在一体化、生态兼容性以及全场景引擎方面进一步提升易用性。以全场景引擎为例,ByteHouse 通过构建统一的平台为用户提供更丰富的数据分析能力,实现数据效能最大化,已经推出了全文检索引擎、GIS 引擎、Vector 引擎,让用户在享受 OLAP 极致性能的同时,无需引入其他架构,就能使用文字检索、地理空间分析、向量检索能力。

在应用场景方面,李群则从实时数仓、企业级 OLAP 中台、广告精准营销三个场景,带来 ByteHouse 最佳实践分享。

以广告精准营销场景为例,随着移动互联网的流量红利消退,精细化营销模式随之跃迁为主流。从数以亿计的人群中,优选出最具潜力的目标受众,是精细营销的题中之义,也是作为基础引擎的数据仓库能力所面临的挑战。

从 ByteHouse 曾服务的某个短剧广告营销公司来看,一方面,该公司投放在业务上需要实时调整策略,要求数据分析、更新时效性在 3s 内,并发 QPS 达到 2000;另一方面,在营销场景中,海量数据实时更新会产生大量数据碎片,拉低查询性能、浪费存储空间。

通过引入 ByteHouse、连山云、巨量引擎联合解决方案,该广告营销公司搭建了一套 ”一键实时同步、极简架构、低门槛技术” 的短剧行业通用解决方案,提升广告数据处理效率与投放 ROI。

在效果上,通过多级索引,如排序键索引、分区键优化、跳跃索引等,ByteHouse 有效减少了广告营销查询时扫描的数据量,在每天千万查询量的情况下,数据返回时效也能保障在秒级,较之前 5 倍提升。在计算组隔离策略中,ByteHouse 为广告营销场景中的数据读、写分别构建独立的计算资源,再通过灵活的 SQL 分发机制,已可以支持超过 2000 QPS 的查询高并发。

据介绍,ByteHouse 还与中国地震台网中心、莉莉丝游戏、极客邦科技等诸多行业企业达成了深度合作,凭借新一代的云原生架构,高效方便的运维模式,以及高性能更灵活的实时查询能力,为企业抓稳数字化机遇建立了夯实的地基,推动企业的数智化转型升级。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/432785.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Kubernetes】日志平台EFK+Logstash+Kafka【实战】

一,环境准备 (1)下载镜像包(共3个): elasticsearch-7-12-1.tar.gz fluentd-containerd.tar.gz kibana-7-12-1.tar.gz (2)在node节点导入镜像: ctr -nk8s.io images i…

webpack使用

一、简介 概述 本次使用webpack4进行构建打包 二、webpack 安装webpack、webpack-cli npm install webpack4.2.0 webpack-cli4.2.0 -D 三、loader 加载器概述 raw-loader:加载文件原始内容(utf-8) file-loader:把文件输出…

CentOS 7 中安装 docker 环境

作者:程序那点事儿 日期:2023/02/15 02:31 官网地址 官网文档 docker三种网络模式 Docker CE 支持 64 位版本 CentOS 7,并且要求内核版本不低于 3.10, CentOS 7 满足最低内核的要求。 Docker 分为 CE 和 EE 两大版本。CE 即社区…

蓝桥杯1.小蓝的漆房

样例输入 2 5 2 1 1 2 2 1 6 2 1 2 2 3 3 3样例输出 1 2 import math import os import sys tint(input())#执行的次数 for j in range(t):n,kmap(int,input().split())#n为房间数 k为一次能涂的个数alist(map(int,input().split()))#以列表的形式存放房间的颜色maxvaluemath…

81、Python之鸭子类型:从魔法函数看对象的字符串呈现

引言 前面已经介绍了鸭子类型的概念,以及Python中支撑鸭子类型理念的“魔法函数”的体系。Python中的魔法函数分为几大类,本文我们首先从最简单的自定义类型的字符串呈现来切入,逐步理解并掌握Python中的魔法函数的完整架构。 本文的主要内…

玩转指针(3)

一、字符指针变量 字符指针变量(如char* p)的两种赋值方式 ①将字符类型地址赋值给字符指针变量 int main() {char a w;char* p &a;*p m;return 0; }②将常量字符串赋值给字符指针变量 常量字符串的介绍:用" "引起来的就…

以Flask为基础的虾皮Shopee“曲线滑块验证码”识别系统部署

以Flask为基础的虾皮Shopee“曲线滑块验证码”识别系统部署 一、验证码类型二、简介三、Flask应用 一、验证码类型 验证码类型:此类验证码存在两个难点,一是有右侧有两个凹槽,二是滑块的运动轨迹不是直线的,而是沿着曲线走的&…

STM32通过HAL库编码方式,在烧写一次程序后,单片机在仿真器上识别不到

在将项目从裸机移植到rtt过程中,总体调试跑不通ADC,进行了单独调试,新程序烧写进单片机后,仿真器再也识别不到单片机。一遍遍检查后发现HAL库没有配置完全。 SYS需要设置成 Serial Wire,忘记设置就成了No Debug,写这么…

基于nodejs+vue的水产品销售管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏:Java精选实战项目…

如何在 macOS(MacBook Pro、Air 和 iMac)上恢复未保存的 Word 文档

Microsoft Word 在许多用户中很受欢迎,并且有多种用途。无论是为学校写论文、在办公室写报告还是其他许多事情。但是不保存文档并丢失数据可能是您可能面临的最可怕的噩梦。但是,也有几种方法可以在 macOS 上恢复未保存的 Word 文档。 用户在 Windows P…

wpf中如何访问控件和生成使用事件?

实际上对于初次使用wpf的同学来说,尤其是有winform编程经验的童鞋来说,最需要解决的就是快速掌握访问控件的方法以及生成和使用事件。这样才能让页面具有最起码的交互性。下面我们来分别讲述。 文章原出处:https://blog.csdn.net/haigear/ar…

网络原理(4)——网络层(IP)、数据链路层

1. IP 协议 基本概念: 主机:配有 IP 地址,但是不进行路由控制的设备 路由器:即配有 IP 地址,又能进行路由控制 节点:主机和路由器的统称 IP 协议报头格式 1) 4 位版本:实际上只有两个取值&…

C语言题目之单身狗2

文章目录 一、题目二、思路三、代码实现 提示:以下是本篇文章正文内容,下面案例可供参考 一、题目 二、思路 第一步 在c语言题目之打印单身狗我们已经讲解了在一组数据中出现一个单身狗的情况,而本道题是出现两个单身狗的情况。根据一个数…

9.C++程序中的选择语句

选择语句一共分为两种:条件语句和开关语句 其中条件语句叫if语句,常见的形式为:if ... else ... ; 再复杂一些为if... else if ... else ... ; 开关语句又叫switch语句,类型于开关的使用形式常见的有 switch (var) case : ... b…

tauri中加载本地文件图片或者下载网络文件图片后存储到本地,然后通过前端页面展示

有一个需求是需要将本地上传的文件或者网络下载的文件存储到本地,并展示在前端页面上的。其实如果只是加载本地文件,然后展示还是挺简单的,可以看我的文章:tauri程序加载本地图片或者文件在前端页面展示-CSDN博客 要想实现上述需…

JS 历史简介

目录 1. JS 历史简介 2. JS 技术特征 1. JS 历史简介 举例:在提交用户的注册信息的时候,为避免注册出现错误后重新填写信息,可以在写完一栏信息后进行校验,并提示是否出现错误,这样会大大提高用户提交的成功率&…

gradle镜像配置

当我们在Android Studio中新建项目或者打开已有项目时,会下载gradle文件,当使用官方的下载源时很慢,经常会下载失败,国内我们可以使用腾讯或者阿里的镜像,一般下载速度很快。 一、gradle下载地址 官网地址&#xff1…

C语言指针系列2——加深理解

大家,今天讲的知识点是一块儿一块儿的,所以大家要好好学习喔~ 话不多说,开始正题 关键字:const (三种用法) 1. int* const p; 2. int const* p; 3. const int* const p; 首先我们要了解一下const&#xff…

【计算机组成原理】实验一:运算器输入锁存器数据写实验

目录 实验要求 实验目的 主要集成电路芯片及其逻辑功能 实验原理 实验内容及步骤 实验内容 思考题 实验要求 利用CP226实验箱上的K16~K23二进制拨动开关作为DBUS数据输入端,其它开关作为控制信号的输入端,将通过K16~K23设定…

【学习笔记】SSL/TLS证书安全机制之证书透明

1、概念 CT - Certificate Transparency,证书透明 2、Trying to Solve 如果意外的 CA 为我们的域名颁发证书,我们是不可见,这就是证书透明(CT)要解决的问题 3、How CT Works 任何CA机构颁发的所有证书的公共登记处&…