阳振坤:AI 大模型的基础是数据,AI越发达,数据库价值越大

2024年1月12日,第四届OceanBase数据库大赛决赛在北京圆满落幕。在大赛的颁奖典礼上,OceanBase 首席科学家阳振坤老师为同学们献上了一场主题为“爱上数据库”的公开课,他不仅分享了个人的成长历程,还阐述了对数据库行业现状与未来的见解和思考。

图片

阳老师回忆了自己年轻时,与如今的同学们相仿的年纪,追随导师王选院士投身激光照排机研发的岁月。他感慨道:“那时,我们的信息系统与发达国家相比,存在着巨大的差距。虽然时至今日,这样的差距仍然存在,但已经大幅缩小,甚至在不少领域,我们已经实现了超越。”

近年来,人工智能技术迅猛发展,谈及 AI 大模型与数据库的关系,他表示,AI 大模型本身的基础其实还是数据,AI 模型越发达,数据库的价值会越大,数据库的空间也会越大

未来数据库会如何发展?他认为,数据库的形式和功能将发生显著变化。现代数据库应具备两大核心特征:一是强大的海量数据处理能力,二是云数据库服务模式。因此,数据库的发展方向必然是多模一体化,以及具备敏捷伸缩和水平扩展的能力。

精彩节选

1、未来数据库不会消失,但形式和功能会发生显著变化

AI 大模型主要依靠训练的数据、训练的结果,以及和用户的交互,这背后海量数据的处理离不开各种各样的数据库。所以 AI 的模型越发达,我觉得数据库的价值会越大,数据库的空间也会越大。

在可预见的未来里,数据库作为存储、管理和检索数据的核心工具,作用只会更加重要,传统关系型数据库也不再是唯一选择。

NoSQL、NewSQL、分布式数据库等新型数据库将广泛应用,云数据库和 Serverless 架构让用户更多依赖云服务商提供的解决方案,AI 和机器学习的引入将使数据库管理更加自动化。

2、数据库激增、类型多样与实时处理是数据库的三大挑战

今天在数据库领域,关系数据库仍然占很大比例,差不多是 70%。有很多人预测,关系数据库的比例会缩小,我是相反的看法,我觉得关系数据库的比例会变大。

这些年,为满足多样化数据类型和复杂查询需求,NoSQL、NewSQL、KV 等部分替代了传统关系型数据库。一个重要原因是传统的关系型数据库多为单机数据库,扩展能力受限,所以人们才会用 KV、NoSQL 等作为解决方案。但这些系统缺少数据库最根本的东西:ACID,导致它本身带有局限性。

数据库这些年发展还出现了一个现象,就是交易和分析割裂。当数据量不大的时候,可以按照交易的方式进行分析,只是效率低一点。但当数据量大了之后,第一是存储,原来的交易数据库面临存储挑战,更谈不上分析;第二是效率,当数据量增长了 1000 倍,分析的时间不可能随之增加到 1000 倍,这时的分析也就失去了意义。

正是因为如此,现在的业务生产系统中,交易和分析是割裂的,形成两个系统。一旦交易系统的数据发生变化,分析系统也要同步改变。这不仅带来成本增加,复杂性也随之上升。

3、云是未来数据库发展的主要趋势

今天,云在数据库市场里占据主流。左边的图里,蓝色部分云数据库市场份额,黄色部分是线下部署的市场份额。现在,云已经占了超过 60%。从右边的图可以看出,数据库每年的市场增量有 90% 在云上,这意味着随着时间的推移,云数据库的占比会越来越大。

图片

(数据来源:Market Share Analysis:DataBase Management Systems,Worldwide,2023)

为什么云服务发展很快?我觉得有两点:效率和成本。

云上的资源可以很快申请,马上就能得到,时间是以秒计算,而线下部署一台机器再快都是以天计算的。在成本方面,中等规模以下的企业,购买云服务很便宜;对大型、特大型的企业由于规模效应,也能带来成本的节省。这其中最重要的原因就是资源的池化与复用。

以 CPU 为例,绝大部分企业的计算机 CPU 利用率是个位数,不到 10%,造成算力浪费。而云上可以做到 20%,因为各家企业的业务有时高有时低,大家互补起来,提高资源的利用率。同时,云上的存储和人力,也可以通过复用提高利用率。

但是数据库不完全是这样,数据库是个有状态的东西。大家知道一个事务建立连接,它的很多状态你是要保持住的。数据库有敏捷的伸缩能力是一个挑战,但如果你没有伸缩能力,你就做不到资源的复用。

4、OceanBase在走一条传统数据库走不了的路

传统集中式数据库第一没有容量,第二很难能解决行存列存冲突的问题。因为行存便于数据修改,而列存的修改代价非常大。如果一个表有 100 个列,插入或删除一条记录,意味着要在硬盘上做 100 次的读、100 次的写,操作代价非常大,效率也就会非常差。

这个里面涉及到两个问题,一个是分布式一个是敏捷伸缩。如果数据库没有敏捷伸缩的能力,就无法像云那样做到资源复用,例如高德地图的导航,除了早晚高峰,凌晨用的人很少,如果没有弹性能力,就会造成资源浪费。

过去的数据库其实是不具备扩展能力的,新的数据库在朝这个方向努力,OceanBase 现在在很多地方还不如 Oracle,但是我们今天走的是一条传统数据库走不了的路。

传统集中式数据库它没有一个很好的扩展能力,而 OceanBase 这种分布式数据库成长起来,它将成为新一代的数据平台。过去需要搭一个交易数据库和一个大数据系统,而现在可以在一个数据库里实现这些功能,去掉两个系统带来的交互和成本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/4766.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

麦田物语学习笔记:场景切换淡入淡出和动态UI显示

基本流程 人物在切换场景有些僵硬,所以增加淡入淡出效果 1.代码思路 (1)核心原理是控制Fade Panel中的CanvasGroup中的Alpha值的大小来实现淡入淡出的效果 (2)用协程去表示变黑或变透明 (3)人物输入被阻拦的情况下,人物却还在移动,这个问题需要解决 2.代码实现 在TransitionM…

一次理清楚Java中的日期和时间

Java中的日期和时间 概述 学习最大的问题困难在于沉下心,现实社会纷乱复杂,充满诱惑,同时随着成家立业年岁增长更无当年之志,顿感无力。回想公瑾当年之言:“日抚谣琴听音,夜有娇妻伴读,此生足矣…

Linux探秘坊-------3.开发工具详解(2)

1.动静态库和动静态链接(操作) 静态库是指编译链接时,把库⽂件的代码全部加⼊到可执⾏⽂件中,因此⽣成的⽂件 ⽐较⼤,但在运⾏时也就不再需要库⽂件了。其后缀名⼀般为“.a” 动态库与之相反,在编译链接时并 没有把库⽂件的代码加⼊到可执⾏⽂件中 ,⽽…

亲测有效!如何快速实现 PostgreSQL 数据迁移到 时序数据库TDengine

小T导读:本篇文章是“2024,我想和 TDengine 谈谈”征文活动的优秀投稿之一,作者从数据库运维的角度出发,分享了利用 TDengine Cloud 提供的迁移工具,从 PostgreSQL 数据库到 TDengine 进行数据迁移的完整实践过程。文章…

C语言:位段

位段的内存分配: 1. 位段的成员可以是 int unsigned int signed int 或者是char (属于整形家族)类型 2. 位段的空间上是按照需要以4个字节( 类型 int )或者1个字节( char )的方式来开辟的。 3. 位段涉及…

多级缓存 JVM进程缓存

目录 多级缓存 1.什么是多级缓存 2.JVM进程缓存 2.1 导入案例 2.2 初识Caffeine 2.3 实现JVM进程缓存 2.3.1 需求 2.3.2 实现 3.Lua语法入门 3.1 初识Lua 3.1 HelloWorld 3.2.变量和循环 3.2.1 Lua的数据类型 3.2.3 循环 3.3 条件控制、函数 3.3.1 函数 3.3.2 条件控制 3.3.3 案…

记录一下OpenCV Contrib 编译踩的坑

最近有需要采用OpenCV Contrib 里面的函数做一下处理,要重新编译,一路编译两三个小时了,记录一下备忘吧。 1、编译前先准备好如下环境 ①visual studio已安装,具体版本和型号根据需求经验来,我看常用的是VS2015、VS201…

每日一刷——1.20——准备蓝桥杯

链接:登录—专业IT笔试面试备考平台_牛客网 来源:牛客网 题目一 请统计某个给定范围[L, R]的所有整数中,数字2出现的次数。 比如给定范围[2, 22],数字2在数2中出现了1次,在数12中出现1次,在数20中出现1次&a…

整数的分离与合成

整数的分离与合成 一、整数的分离1.1 整数拆成数字的方法1.1.1 取尾法1.1.2 取头法 1.2 任意整数的分离 二、整数的合成 整数是由数字和数位组成的,比如327是一个三位数,它的数字是3、2、7,数位是个数、十位、百位。 经常有些题目考查将一个整数拆分成各…

动态规划(多状态)

面试题 17.16. 按摩师 面试题 17.16. 按摩师 - 力扣&#xff08;LeetCode&#xff09; class Solution { public:int massage(vector<int>& nums) {int n nums.size();//特殊情况&#xff1a;空数组if(n0)return 0;vector<int> f(n);vector<int> g(n);…

【json_object】mysql中json_object函数过长,显示不全

问题&#xff1a;json只显示部分 解决&#xff1a; SET GLOBAL group_concat_max_len 1000000; -- 设置为1MB&#xff0c;根据需要调整如果当前在navicat上修改&#xff0c;只有效本次连接和后续会话&#xff0c;重新连接还是会恢复默认值1024 在my.ini配置文件中新增或者修…

ElasticSearch DSL查询之高亮显示

什么是高亮显示&#xff1f; 高亮显示是指在搜索结果中&#xff0c;将用户搜索的关键字突出显示&#xff0c;使其更为醒目。以百度搜索为例&#xff0c;当用户搜索“JAVA”时&#xff0c;搜索结果中的标题或概述部分会将“JAVA”高亮显示&#xff0c;通常以红色标出&#xff0…

WGAN - 瓦萨斯坦生成对抗网络

1. 背景与问题 生成对抗网络&#xff08;Generative Adversarial Networks, GANs&#xff09;是由Ian Goodfellow等人于2014年提出的一种深度学习模型。它包括两个主要部分&#xff1a;生成器&#xff08;Generator&#xff09;和判别器&#xff08;Discriminator&#xff09;…

低代码系统-产品架构案例介绍(五)

接上篇&#xff0c;某搭介绍。 某搭以低代码为核心驱动&#xff0c;利用AI能力强势推动应用深度体验&#xff0c;打通钉钉对接&#xff0c;且集成外部系统。 可以看出&#xff0c;某搭在未来的规划上&#xff0c;着重在于AI 也就说明&#xff0c;低代码产品在未来的竞争上&…

嵌入式知识点总结 ARM体系与架构 专题提升(一)-硬件基础

嵌入式知识点总结 ARM体系与架构 专题提升(一)-硬件基础 目录 1.NAND FLASH 和NOR FLASH异同 ? 2.CPU,MPU,MCU,SOC,SOPC联系与差别? 3.什么是交叉编译&#xff1f; 4.为什么要交叉编译&#xff1f; 5.描述一下嵌入式基于ROM的运行方式和基于RAM的运行方式有什么区别? 1…

学习记录之原型,原型链

构造函数创建对象 Person和普通函数没有区别&#xff0c;之所以是构造函数在于它是通过new关键字调用的&#xff0c;p就是通过构造函数Person创建的实列对象 function Person(age, name) {this.age age;this.name name;}let p new Person(18, 张三);prototype prototype n…

迈向 “全能管家” 之路:机器人距离终极蜕变还需几步?

【图片来源于网络&#xff0c;侵删】 这是2024年初Figure公司展示的人形机器人Figure 01&#xff0c;他可以通过观看人类的示范视频&#xff0c;在10小时内经过训练学会煮咖啡&#xff0c;并且这个过程是完全自主没有人为干涉的&#xff01; 【图片来源于网络&#xff0c;侵删】…

海康工业相机的应用部署不是简简单单!?

作者&#xff1a;SkyXZ CSDN&#xff1a;SkyXZ&#xff5e;-CSDN博客 博客园&#xff1a;SkyXZ - 博客园 笔者使用的设备及环境&#xff1a;WSL2-Ubuntu22.04MV-CS016-10UC 不会吧&#xff1f;不会吧&#xff1f;不会还有人拿到海康工业相机还是一脸懵叭&#xff1f;不会还有人…

【自动控制原理】非线性系统 描述函数法 相平面法

写在前面&#xff08;叠甲&#xff09;&#xff1a; 非线性是控制科学中重要的一个研究方向&#xff0c;它所包含的理论远远超过自动控制原理中的内容。在本文中&#xff0c;所介绍的内容仍然在《自动控制原理》框架内&#xff0c;所以只介绍了自控原理课程中涉及的非线性问题&…

three.js实现裸眼双目平行立体视觉

three.js实现裸眼双目平行立体视觉原理&#xff1a; 利用两个相机、两个渲染器&#xff0c;同时渲染同一个场景。 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"…