华东师范大学副校长周傲英:未来,中国需要什么样的数据库?

本文为华东师范大学副校长,CCF 会士周傲英教授在第一届 OceanBase 开发者大会带来的分享。欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/


3 月 25 日,第一届 OceanBase 开发者大会在北京举行,华东师范大学副校长,CCF 会士周傲英教授带来了《未来,中国需要什么样的数据库?》的分享,从他的视角为大家介绍了数据库技术发展的趋势、行业的机会,还有我们所肩负的使命。

以下为演讲实录:

很高兴又来到 OceanBase 的会场,关于中国未来需要什么样的数据库,是我特别想讲的内容,我从1985 年读研究生的时候开始学习数据库,经过多年的发展,中国终于迎来了数据库发展的新机遇。 今天我的分享将从数据库的诞生、数据能源对于数字化转型的作用、分布式数据库评测基准三个主要方面展开。

应用驱动创新的数据库

简单回顾一下数据库,从更高的维度来看,数据库属于什么样的技术范畴?假如数据是电能(power),需要把电送到千家万户,我们就需要一个赋能平台,要有电力的基础设施,此时,我觉得数据库就属于基础设施里面的一个重要内容,并且它具有先锋性的作用。

展开讲讲赋能平台,“赋能”这个词是互联网的概念,现在已经被广泛使用,现在我们到处讲的“赋能”,英文是 In-power,也就是说它的主语应该是 power,才能赋能其它的。这个角度来说数据库就是赋能平台的概念,最早在 50 多年前已经出现,现在已经到了广泛的赋能平台,现在就来分享一下,我们在和 OceanBase 合作中对分布式数据库的理解。

大家都知道,我们在学计算机专业的传统专业课程中,有四门课是我们这个专业独有的——编译、操作系统、数据库、网络,而这四门课程中,只有数据库成为了一个独立的行业。操作系统中的 Windows 不是单独卖 Windows,编译也没有单独卖编译的,网络是卖硬件的、没有卖软件的。从这个角度来说,在数据库产业的发展过程中,Benchmark 基准评测起到了很好的作用,也规范了这个行业的发展,让大家相对公平、有序地竞争。

▋ 数据库为金融而生

数据库是作为金融技术、金融科技而诞生的,支持的是 Mission-Critical 的应用,Mission-Critical 是人财物的精确管理,为了做到“精确”,我们需要数据库。最早的数据库从 COBOL (Common Business-Oriented Language,最早的商用编程语言)里诞生。2000 年,美国由于千年虫(Y2K)的历史遗留问题,把很多在海边独居的老人请回来改代码,那时候的代码还是 COBOL 代码,最早的社保和医保系统都是用 COBOL 来写的。2020 年疫情刚开始时,因为很多医保、社保在这一年马上要兑付,很多老人再次被请回来改代码。

由此可见,数据库是早期最经典的金融科技, 是典型的“应用驱动创新”的案例。

▋ 数据库的发展历史

20 世纪 50 年代,COBOL 开始出现;60 年代,COBOL 被定义为数据系统语言,第一个图灵奖获得者艾伦·佩利(Alan J.Perlis)在 CODASYL 会议上提出了 DBTG 报告;80 年代,数据库概念达到顶峰,关系型数据库开始出现,数据库由此开始慢慢被人接受,并由此开始广泛传播,也是在这个过程中,两个图灵奖获得者诞生了。

数据库的发展史是 IT 技术创新史的缩影,数据库的的成功是应用创新的成功。用应用驱动创新的数据库,在理论和技术的相互促进中,形成了数据库波澜壮阔发展的几十年。虽然数据库技术在不断发展中越发成功,但是任何成功的案例都有它深刻的教训: 原本我们以为一个关系数据库能够解决所有问题,但在大数据和谷歌的“三驾马车”概念出来之前,大家好像都在哀叹数据库好像解决不了数据的问题,直到” One Size Fits a Bunch”( 即一类应用可以有一个数据库)概念的提出。

我跟国外学者交流时,他们也很认可我的理念:学数据库的人应该理解数据库的抽象,关系数据库就是对语义的抽象,事务处理就是对业务逻辑的抽象, 分布式数据库就是阳振坤老师讲到管帐、记帐、转帐这些业务逻辑的抽象,而 Benchmark 是对功能、对能力、对规范的抽象,正是抽象成就了 30 多年的数据库产业的发展。

数据之于数字化转型

从现在的角度来看,我们怎么来做新的数据库?“Data is power(数据是新能源)”的理论,是 2016 年马云先生在云栖大会上讲的,这个 Power 指的是电,数据给生活带来的深刻改变好比一百多年前,电的诞生对生活带来的深刻改变一样。

虽然四五十年前已经有人意识到数据的重要性,但我们对于数据广泛意义上的重要性是互联网教会我们的。从“蒸汽能 (Steam Power) ”到“电能 (Electric Power) ”再到“数据能 (Data Power) ”,每次 Power 的改变实际上不仅仅是一次产业的巨大改变,它带来还有国际格局的根本改变。

Image

在蒸汽时代之前的马能(Horse Power)时代,中国占据世界中心地位几百年甚至上千年;到了蒸汽时代,英国占据了世界的中心地位;再到了电能时代,美国就取代了英国。而现在的“数据能”时代给中国带来了机会,也给数据库人带来了机会,我们在走向世界中央的路上。

数字经济不是产业的数字化、数字的产业化,这是非常表面的现象,本质上它会带来整个经济格局的改变。 就像电能时代,在把蒸汽时代所有的产业都做一遍的同时,也诞生了一批崭新的产业,比如通信、IT,数据是把人类从工业文明带入数字文明的一个重要能源。

现在我们讲的数字化转型中,数据对于数字化的作用,就像电对于电气化转型一样。2020 年 4 月上旬,美国微软发布了 Microsoft Power Platform,在这个平台上将微软所有的功能集合在了一起。

Image

虽然它没有说这个 Power 指什么,但却强调了 Microsoft Power Platform 是助力数字化转型的低代码平台,现在微软的 Word、Excel、PowerPoint 产品里都融入了 GPT4,所以它讲的 Power 就是 Data,如果把 Microsoft 摘掉,Power Platform 就是我们的电力基础设施,电力、电网、远距离超高压传输电网,一直到家里的配电盘以及变电站里面的变压器,整个这一套就是 Power Platform,它的根本目的要把数据大众化,把开发大众化,把 AI 大众化。

Image

把数据大众化,就是要让大家都能简单地使用数据,要低代码甚至零代码,这是它的基本逻辑,其发展的最高境界就是 AI 大众化,所以我们要做数据赋能平台,也就是马老师以前提到的数据中台。

我们要把数据中台翻译成 Data Power Platform,从而彰显 Data is power。数据库是数据中台的重要功能,根本目的就是我们要认识 Data,知道电压、电流、电阻,我们才研究这一套电,我们要有电网、有继电保护,我们要让数据技术装备化、大众化、平民化、傻瓜化,这是我们的根本目的。虽然我们不见得都理解电,但是我们每个人都会用电,ChatGPT 也是给我们这样的路线,让大家不需要编代码就可以把计算机和 AI 用起来。 “真正的 AI 时代”开始的根本目的就是要让数据大众化,把数据用好。

互联网时代,我们对数据库提出非常广泛的要求,数据库和互联网碰撞到一起,带来非常多的冲击——场景和应用范围不一样了。原本的数据库必须是数据库的用户才能用,现在的数据库是有个手机就能用。

分布式数据库评测基准

伴随着云计算趋于成熟,在这样的情况下,我们未来的分布式数据库在什么地方,OceanBase 是分布式数据库的探索者。我认为分布式数据库要有云上的系统,刚才我们都提到数据库要扩容,要智能运维, 如果要让数据库好用,要让赋能平台好用,就不能仅仅只是“One size fits a bunch”,而应该是像阳振坤提出的观点“One Suite fits all”。

以前我们学分布式数据库时,还没有网络和现在的互联网,现在在应用驱动创新下,有了互联网,进而有了分布式数据库。

Image

▋ Benchmark 对产业形成非常重要

在华东师范大学和 OceanBase 合作过程当中,我们认为:Benchmark 对产业的形成非常重要,也是在这个过程中,我们进行了总结。所以我们一直在研究基准,以此来引导分布式数据库的发展。

基准是应用需求的抽象,有了抽象才能引导,我们都知道实践出真知,由于真知形成了理论再引导实践,正是统一的评测基准引导着分布式数据库的发展,我们对传统的 Benchmark 进行了总结,包括 OLTP 和分布式数据库的总结,在 2022 年有一篇文章,全面地论述了从 Benchmark 的发展到分布式数据库的发展。

Image

数据库历史发展图

我们必须抽象,而抽象一定要从应用当中来,要了解应用的需求。因为应用的需求对分布式数据库的可扩展性、高可用性、可调度性、弹性非常重要,所以为了做到这一点,需要形成量化的标准,我们希望用量化的方式来进行评测。

我们做了分布式数据库评测的套件 Dike,目前已经公布在 Github上面,叫 dbhummer。Dike 是可插拔的、定量的、动态的、不均衡的一种分布的方式,今年也被选中在 SIGMOD 上进行了发表。我们的套件从不同的角度来进行评测,只要是分布式数据库,大家都可以在这上面做 PK,希望以此引导技术往正常的轨道上发展,不会形成恶意竞争。

Image

▋ HTAP benchmark

我们对 HTAP 也做了相应研究,研究 HTAP 的 Benchmark 要点,比如:混合负载、抗干扰能力、实时数据获取能力,在统一的业务场景上进行分析,把 TP 和 AP 放在一起,他们之间会存在交叉,同时保证不同的 HTAP 可横向比较等等,对整个国际 Benchmark 学术界是一个非常重要的热点问题,目前,华东师大和 OceanBase 正在联合研制新的 HTAP 评测基准 Vodka ,我们对已有的系统和标准做了比较,希望很快能出台标准。

Image

华师大能够在数据库研究里面保持领先地位,在国际上保持一定的影响力,很重要的一点就是我们从 2014 年开始,一直在研究 Benchmark。Benchmark 对业界来说就是标准,它对数据库产业的发展和学术的发展非常重要。

最后,数据库是实现赋能最早、最经典的成功案例,我们要从更高的角度看这个 Power,并搭建 Data power Platform,把技术大众化作为根本的出路,Benchmark 是引导数据库发展的正确途径,我们初步的方向在同样的套件上面实现用户所希望的所有功能。

谢谢大家,也祝 OceanBase 越来越好!


欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/40378.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023世界人工智能大会开幕,马斯克、杨立昆等大佬又说了什么?

今年世界人工智能大会(WAIC)开幕说了些什么? 每年世界人工智能大会,行业大佬们都会带着不同的角色、身份与立场对AI这一颠覆性的概念发表看法。我们从今年人工智能大会开幕的4组发言和对话中总结出3个可能的趋势: 其…

5款“真香”AI工具推荐

工欲善其事,必先利其器。如何更好利用AI辅助学习,工作,搞钱,好用的AI工具必不可少。 推荐5个非常好用的AI工具,也是我目前使用频率比较高和准备使用的工具,很香。 Chatgpt不在此推荐中啊,在目…

九龙证券|美股止步三连涨!纳指下挫2.48%,中概股普跌

美东时刻周三,美股三大股指低开低走,止步三日连涨。道指跌646.89点,跌幅为1.95%,报32513.94点;纳指跌263.02点,跌幅为2.48%,报10353.18点;标普500指数跌79.54点,跌幅为2.…

第二证券|鲍威尔发声:释放重磅信号,美股大涨!中概股狂涨

大家早上好!昨夜今晨又有许多大事产生:美联储主席鲍威尔证明,12月开端或许放缓加息;微软涨逾1100亿美元,美股进入技能型牛市;小鹏轿车昨日暴升近50%,中概股11月涨逾40%;法、德不满美…

不知道如何录音转文字?分享两个实用方法

相信大家都有遇到过这种类似的经历——在会议上做记录,有时内容太多,记录的速度跟不上领导讲的速度。通常情况下,我们会选择录音的方式,将会议全程录下来,回去的时候再慢慢整理。但是回放录音的过程也会耗费我们很多时…

会议录音转文字(PC版)

如何将会议录音快速转换成文字 录音转文字的方法有很多种,下列分享其中一种: 所需软件: 1.剪映(pc) 2.办公软件wps(office)3.会议录音文件 剪映PC下载地址:https://lv.ulikecam.c…

Bing Speech微软必应语音认知服务-文字语音互转

本项目使用 Bing Speech API, Bot Framework, LUIS 实现在Unity内的中文语音文字互转,还可以在UWP应用完成语义分析。 1.添加必应语音 API 到你的订阅,地址 ,点击创建,并获取API密钥; 2.修改 SpeechManager.cs的Subscr…

怎么把录音转成文字?试试这几个录音转文字软件

在工作学习中,我们常常会将一些比较重要的事项录音下来,方便后续的整理记录。借助录音转文字软件,将录音内容快速转换识别为文字,可以让我们省时省力、提高工作效率。那有哪些录音转文字软件呢?今天就给大家介绍几款录…

知乎热议 如何利用ChatGPT搞科研?

学术志 2023-05-27 21:15 发表于北京 来源:QbitAI、量子位、知乎 编辑:学妹 △ 扫码加老师进入【AI学术交流群】 这位研究僧,GPT-4都发布了,你还在纯人工搞科研吗? 已经有人实测: ChatGPT科研全流程都能用…

WormGPT: 「邪恶版」ChatGPT的道德问题和威胁

WormGPT: 「邪恶版」ChatGPT的道德问题和威胁 摘要 本论文讨论了一款名为WormGPT的「邪恶版」ChatGPT的出现,并探讨了这种恶意AI模型所带来的道德问题和数据安全威胁。WormGPT是一个由黑客设计的,能够生成恶意软件的聊天机器人。该论文着重于分析WormGP…

贡献度分析

由来:依据帕累托分析中的帕累托法则(有兴趣的话可以自己百度一下)。在公司运营中,80%的利润常常来自于20%最畅销的产品,而其他80%的产品只产生了20%的利润。 因此,要想提高利润的话就要从80%那一大部分的利…

ChatGPT - 通过测试强化学习

文章目录 Prompt Prompt 我目前正在学习[主题]。问我一系列问题,以测试我的知识。确定我的答案中的知识差距,并给我更好的答案来填补这些差距好的,下面是每个问题的答案和进一步的解释:1. 什么是Kafka? Kafka是一个分…

IIS发布.net6 api+微信小程序/H5真机调试接口的流程

我们创建.net6 api程序,然后使用SqlSugar连接MySQL数据库,再使用iis发布,当然使用其他的也行。再开发一个微信小程序,手机运行小程序,手机运行H5,都可以看到数据库的数据,就是这么一个流程。 开…

鸡兔同笼问题 ← C语言实现

【问题描述】 今有雉兔同笼,上有三十五头,下有九十四足,问雉兔各几何? ------《孙子算经》 【解题思路】 假设都是“兔…

达达兔网站服务器是哪里,达达兔影院网官网

达达兔是一款掌上的影院,你可以在这里收看到不同的影视作品,更多的影视作品离线在线都可以看,经典的,新颖的,喜爱看电影追剧的朋友绝对不能错过的一款app,全网优质的影视轻松观看,享受精彩的剧集…

兔子,撒币

作为最硬核的你兔老大,我狠起来连自己都骂 一、原力第一 哈哈当然不是骂自己啦哈哈,其实是最近csdn出了一个活动:原力计划s3,弄得我现在整天想着,给你们发钱。发书。发资料。 对,就是这个玩意&#xff1a…

虚假新闻检测论文调研

虚假新闻检测论文调研 Evidence Inference Networks for Interpretable Claim Verification 基本信息 发表刊物和年份:2021 AAAI 摘要 现有方法的缺点 现有的方法构造了适当的交互模型(文本与文本,文本与评论,文本与社交网络…

虚假新闻识别检测分类

虚假新闻检测 一、项目主题 ​ 针对媒体出现的虚假新闻和真实新闻进行检测识别。 ​ 动机:在这个社交媒体和互联网的世界中,我们接触到各种新闻和文章,但其中一些新闻和文章是假的,是为了好玩或出于恶意而制作的,这…

CIKM 2020 | FANG:利用社会语境及其图表示进行假新闻检测

目录 前言1. 问题定义2. 从social context中构建图3. 事实新闻图框架 (FANG)3.1 表示学习3.2 时序建模3.3 损失函数 4. 实验4.1 数据集4.2 实验结果 5. 讨论5.1 数据集大小的限制5.2 时序建模的意义5.3 可扩展性 6. 总结 前言 题目: FANG: Leveraging Social Contex…