OceanBase 首席科学家阳振坤:大模型时代的数据库思考

2024年 OceanBase 年度大会 即将于10月23日,在北京举行。
欢迎到现场了解更多“SQL + AI ” 的探讨与分享!


近期,2024年金融业数据库技术大会在北京圆满举行,聚焦“大模型时代下数据库的创新发展”议题,汇聚了国内外众多顶尖金融机构、科技企业代表、行业专家及政府领导。大会通过展示最新的研究成就与技术动向,研讨了在大数据与人工智能等科技迅猛发展的环境下,金融行业如何利用数据库技术的创新来推动高质量发展。

 OceanBase 首席科学家阳振坤受邀出席,并发表了《大模型时代的数据库思考》主题演讲。在演讲中,阳振坤指出:大模型时代下,海量数据带来高昂成本,云和分布式技术可以提高资源利用率,降低数据库使用成本,将是数据库技术未来的发展方向。以下为演讲实录:

图片

1、海量数据和分布式数据库是大模型时代的基石

各位领导,各位专家,很高兴跟大家分享我对大模型时代数据库的一些想法。大模型的时代,一个很大的挑战就是海量数据。海量数据同时也带来了高昂的成本。数据库应该如何应对海量数据和高昂成本的挑战,我觉得有两个基本点,一个是分布式,第二是云化。

可能有人对此有不同的看法,认为金融出于安全、保密等各方面原因,离云很远。我认为,不完全如此。最核心数据还会放在自己的机房里,但是会有更多的东西会逐步走向云。后面我也会跟大家分享云的价值。

我们先看分布式。大家的认知里,可能有两种分布式,一种是乐高积木搭出来分布式,一种是真正的原生分布式。乐高积木搭出来的分布式就像小飞机,小飞机可以运载一些人员和轻型设备,真正的重型设备需要大飞机运输,这是小飞机无法做到的。乐高积木式的分布式在大模型、实时报表、实时分析等场景下,也难以实现复杂的数据分析与管理。

2、上云是降本增效的战略选择

为什么很多企业在一段时间内大量采用云服务?原因逃不过四个字:降本增效。如果我们可以帮助企业提升业务效率、降低运营成本,那么企业一定是欢迎的。云在降本增效这两个方面成效显著。

一个是效率。因为企业需要的计算资源、存储资源,如果自己去购买,最小也是以天为单位计费,但在云上就是以秒计算,多了随时可以退掉,少了可以随时追加,规模效应下的动态伸缩、按需使用的计算与存储服务,将极大提升企业的效率。

另外是成本。好的技术如果增加了企业成本,也很难被人接受。云通过规模效应下资源的池化与复用,大幅降低了企业成本。

资源复用在生活中很常见。举个例子,大家都有 5G 手机,带宽是几十兆至一百兆。实际上,我们所有人都在共享这一个 5G 平台的带宽。有线网络也一样,北京几百万家庭,如果每家家庭网络是独栈的,这将一个巨大的负担。

大负载企业的计算机的利用率通常是个位数,如果云通过集中化把这个比例提高一倍到 20%,用一份硬件投资买两份硬件,这里产生多余的一份硬件几乎是纯利用,但是这个纯利用不可能自己获得,还有一部分返给了相应企业,一定程度也可以降低企业成本。

存储也是如此。当很多台机器每个都是本地硬盘的时候,为了防止本地硬盘写满爆掉,很难把利用率做到 70%-80%。如果把这些硬盘池化,将资源集中使用,那么有 20%-30% 的池化富余作为缓冲给所有资源使用,相当于整个池子可达70%-80% 的利用率。

另外是人的成本。我们派一个技术人员去金融机构,大量时间耗费在路上,还有门口的安全、保卫、登记措施,浪费大量的时间,假如跨地域服务还涉及到差旅。原来我们一个人一天最多服务一两个客户,但在云上,一个专家一天可以服务 8-10 个客户,在线就可以解决相关问题。

图片

从全球数据库的市场份额可以看到,今天全世界云上的数据库的市场份额占有率超过 60%,已经显著超过云下,且每年的增量份额,云上占了超过 90%,这意味着云上数据库市场未来几年还会进一步扩大。

如何做好资源复用?单机数据库和分布式数据库之间存在巨大的差异,云上资源的复用至关重要。资源复用率高,整个成本就能降低。这些 CPU 被申请之后,单台的物理机上 CPU 一定会呈现碎片化的趋势,整体还有余量,但单台 CPU 已不够用。如一个 711 的便利店,晚上流量很小,中午、早上流量很大。业务低峰 2 个 CPU 就够用,但是业务高峰要需 6 个 CPU。这里有 5 台机器,每一台机器的 CPU 都不足以支撑业务。如果是分布式数据库,则可以利用更多的资源,6 个 CPU 不够,用 8 -10 个就可以支撑业务,提升整个系统的资源利用率。

最后,我对今天的分享做一个简单的总结。数据库其实和 IT 三大件、CPU、操作系统一样,和地域文化相关度非常小。过去很多年,是别人引领潮流,无论是商业数据库还是开源数据库,是别人构筑了这个潮流带领我们使用。分布式数据库和大模型、互联网一样,其实是给我们提供了一个机会,让我们能真正构建分布式数据库,来引领这个世界的潮流。


10 月 23 号,OceanBase 年度发布会将在北京召开,想了解更多 OceanBase 在 SQL+AI 的最新技术与实践,欢迎关注下午的「云和 AI 时代的数据库实践专场」。欢迎大家通过 大会官网了解全部议程详情和报名参与本次年度发布会,进一步走近 OceanBase,认识 OceanBase!💪

点击链接立即报名 >> OceanBase 年度发布会

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/456762.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

详细尝鲜flutter

flutter 161由于官方的汉化文档感觉还是有很多没有汉化的地方 ,所以自己打一遍的同时写下了以下笔记 社区生态 官方文档 所有的控件:Widget 目录 | Flutter 中文文档 - Flutter 中文开发者网站 - Flutter 官方论坛的教程 Flutter Widget框架概述 - Flutter中文网…

微信小程序中关闭默认的 `navigationBar`,并使用自定义的 `nav-bar` 组件

要在微信小程序中关闭默认的 navigationBar,并使用自定义的 nav-bar 组件,你可以按照以下步骤操作: 1. 关闭默认的 navigationBar 在你的页面的配置文件 *.json 中设置 navigationBar 为 false。你需要在页面的 JSON 配置文件中添加以下代码…

JS 中 reduce()方法及使用

摘要: 开发中经常会遇到求合计的状况!比如和,积等!这次遇到的是求合计的和! reduce()方法是JavaScript中Array对象的一种高阶函数,用于对数组中的每个元素执行一个由您提供的reducer函数(回调函…

内置数据类型、变量名、字符串、数字及其运算、数字的处理、类型转换

内置数据类型 python中的内置数据类型包括:整数、浮点数、布尔类型(以大写字母开头)、字符串 变量名 命名变量要见名知意,确保变量名称具有描述性和意义,这样可以使得代码更容易维护,使用_可以使得变量名…

STM32-Modbus协议(一文通)

Modbus协议原理 RT-Thread官网开源modbus RT-Thread官方提供 FreeModbus开源。 野火有移植的例程。 QT经常用 libModbus库。 Modbus是什么? Modbus协议,从字面理解它包括Mod和Bus两部分,首先它是一种bus,即总线协议,和…

学习threejs,利用THREE.ExtrudeGeometry拉伸几何体实现svg的拉伸

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.ExtrudeGeometry拉伸…

通过ssh端口反向通道建立并实现linux系统的xrdp以及web访问

Content 1 问题描述2 原因分析3 解决办法3.1 安装x11以及gnome桌面环境查看是否安装x11否则使用下面指令安装x11组件查看是否安装gnome否则使用下面指令安装gnome桌面环境 3.2 安装xrdp使用下面指令安装xrdp(如果安装了则跳过)启动xrdp服务 3.3 远程服务…

C2W4.LAB.Word_Embedding.Part1

理论课:C2W4.Word Embeddings with Neural Networks 文章目录 Word Embeddings First Steps: Data PreparationCleaning and tokenizationSliding window of wordsTransforming words into vectors for the training setMapping words to indices and indices to w…

七,Linux基础环境搭建(CentOS7)- 安装Scala和Spark

Linux基础环境搭建(CentOS7)- 安装Scala和Spark 大家注意以下的环境搭建版本号,如果版本不匹配有可能出现问题! 一、Scala下载及安装 Scala是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现…

合并数组的两种常用方法比较

在 JavaScript 中,合并数组的两种常用方法是使用扩展运算符 (...) 和使用 push 方法。 使用扩展运算符 this.items [...this.items, ...data.items]; 优点: 易于理解:使用扩展运算符的语法非常直观,表达了“将两个数组合并成一个…

24.redis高性能

Redis的单线程和高性能 Redis是单线程吗? Redis 的单线程主要是指 Redis 的网络 IO 和键值对读写是由一个线程来完成的,这也是 Redis 对外 提供键值存储服务的主要流程。 Redis 的多线程部分,比如持久化、异步删除、集群数据同步等&#xff…

合合信息亮相PRCV大会,探讨生成式AI时代的内容安全与系统构建加速

一、前言 在人工智能技术的飞速发展下,生成式AI已经成为推动社会进步的重要力量。然而,随着技术的不断进步,内容安全问题也日益凸显。如何确保在享受AI带来的便利的同时,保障信息的真实性和安全性,已经成为整个行业待解…

C#/.NET/.NET Core全面的自学入门指南

自学入门建议 确认学习目标:自学C#/.NET首先你需要大概了解该门语言和框架的发展、前景和基本特点,从自身实际情况和方向出发确认学习的必要性。 制定学习计划:制定一个详细的学习计划(比如每天学习一个C#/.NET知识点、小技能&am…

【web安全】缓慢的HTTP拒绝服务攻击详解

文章目录 前言一、攻击原理二、攻击类型三、攻击特点四、HTTP慢速攻击实战工具简介使用参数介绍五、修复建议前言 缓慢的HTTP拒绝服务攻击是一种专门针对于Web的应用层拒绝服务攻击,攻击者操纵网络上的肉鸡,对目标Web服务器进行海量http request攻击,直到服务器带宽被打满,造成…

微服务网关Zuul

一、Zuul简介 Zuul是Netflix开源的微服务网关,包含对请求的路由和过滤两个主要功能。 1)路由功能:负责将外部请求转发到具体的微服务实例上,是实现外部访问统一入口的基础。 2)过滤功能:负责对请求的过程…

入侵检测算法平台部署LiteAIServer视频智能分析平台行人入侵检测算法

在当今科技日新月异的时代,行人入侵检测技术作为安全防护的重要组成部分,正经历着前所未有的发展。入侵检测算法平台部署LiteAIServer作为这一领域的佼佼者,凭借其卓越的技术实力与广泛的应用价值,正逐步成为守护公共安全的新利器…

R5:天气预测-探索式数据分析

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 一、实验目的: 根据数据对 RainTomorrow 进行预测,熟悉探索式数据分析(EDA) 二、实验环境: 语言环境…

QT:MaintenanceTool 模块安装工具

QT的MaintenanceTool 工具对已安装的 Qt 进行卸载、修复等其他操作时提示At least one valid and enabled repository required for this action to succeed 解决方式:在设置中添加一个临时的仓库 https://mirrors.tuna.tsinghua.edu.cn/qt/online/qtsdkrepositor…

LeetCode: 3274. 检查棋盘方格颜色是否相同

一、题目 给你两个字符串 coordinate1 和 coordinate2,代表 8 x 8 国际象棋棋盘上的两个方格的坐标。   以下是棋盘的参考图。   如果这两个方格颜色相同,返回 true,否则返回 false。   坐标总是表示有效的棋盘方格。坐标的格式总是先…

【数据分享】全国各省份农业-瓜果类面积(1993-2018年)

数据介绍 一级标题指标名称指标全称单位指标解释农业瓜果类面积农业-瓜果类面积-瓜果类面积千公顷根据第三次全国农业普查结果,对2007年-2017年农业生产有关数据进行了修正。农业西瓜面积农业-瓜果类面积-西瓜面积千公顷根据第三次全国农业普查结果,对2…