本文为华东师范大学副校长,CCF 会士周傲英教授在第一届 OceanBase 开发者大会带来的分享。欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/
3 月 25 日,第一届 OceanBase 开发者大会在北京举行,华东师范大学副校长,CCF 会士周傲英教授带来了《未来,中国需要什么样的数据库?》的分享,从他的视角为大家介绍了数据库技术发展的趋势、行业的机会,还有我们所肩负的使命。
以下为演讲实录:
很高兴又来到 OceanBase 的会场,关于中国未来需要什么样的数据库,是我特别想讲的内容,我从1985 年读研究生的时候开始学习数据库,经过多年的发展,中国终于迎来了数据库发展的新机遇。 今天我的分享将从数据库的诞生、数据能源对于数字化转型的作用、分布式数据库评测基准三个主要方面展开。
应用驱动创新的数据库
简单回顾一下数据库,从更高的维度来看,数据库属于什么样的技术范畴?假如数据是电能(power),需要把电送到千家万户,我们就需要一个赋能平台,要有电力的基础设施,此时,我觉得数据库就属于基础设施里面的一个重要内容,并且它具有先锋性的作用。
展开讲讲赋能平台,“赋能”这个词是互联网的概念,现在已经被广泛使用,现在我们到处讲的“赋能”,英文是 In-power,也就是说它的主语应该是 power,才能赋能其它的。这个角度来说数据库就是赋能平台的概念,最早在 50 多年前已经出现,现在已经到了广泛的赋能平台,现在就来分享一下,我们在和 OceanBase 合作中对分布式数据库的理解。
大家都知道,我们在学计算机专业的传统专业课程中,有四门课是我们这个专业独有的——编译、操作系统、数据库、网络,而这四门课程中,只有数据库成为了一个独立的行业。操作系统中的 Windows 不是单独卖 Windows,编译也没有单独卖编译的,网络是卖硬件的、没有卖软件的。从这个角度来说,在数据库产业的发展过程中,Benchmark 基准评测起到了很好的作用,也规范了这个行业的发展,让大家相对公平、有序地竞争。
▋ 数据库为金融而生
数据库是作为金融技术、金融科技而诞生的,支持的是 Mission-Critical 的应用,Mission-Critical 是人财物的精确管理,为了做到“精确”,我们需要数据库。最早的数据库从 COBOL (Common Business-Oriented Language,最早的商用编程语言)里诞生。2000 年,美国由于千年虫(Y2K)的历史遗留问题,把很多在海边独居的老人请回来改代码,那时候的代码还是 COBOL 代码,最早的社保和医保系统都是用 COBOL 来写的。2020 年疫情刚开始时,因为很多医保、社保在这一年马上要兑付,很多老人再次被请回来改代码。
由此可见,数据库是早期最经典的金融科技, 是典型的“应用驱动创新”的案例。
▋ 数据库的发展历史
20 世纪 50 年代,COBOL 开始出现;60 年代,COBOL 被定义为数据系统语言,第一个图灵奖获得者艾伦·佩利(Alan J.Perlis)在 CODASYL 会议上提出了 DBTG 报告;80 年代,数据库概念达到顶峰,关系型数据库开始出现,数据库由此开始慢慢被人接受,并由此开始广泛传播,也是在这个过程中,两个图灵奖获得者诞生了。
数据库的发展史是 IT 技术创新史的缩影,数据库的的成功是应用创新的成功。用应用驱动创新的数据库,在理论和技术的相互促进中,形成了数据库波澜壮阔发展的几十年。虽然数据库技术在不断发展中越发成功,但是任何成功的案例都有它深刻的教训: 原本我们以为一个关系数据库能够解决所有问题,但在大数据和谷歌的“三驾马车”概念出来之前,大家好像都在哀叹数据库好像解决不了数据的问题,直到” One Size Fits a Bunch”( 即一类应用可以有一个数据库)概念的提出。
我跟国外学者交流时,他们也很认可我的理念:学数据库的人应该理解数据库的抽象,关系数据库就是对语义的抽象,事务处理就是对业务逻辑的抽象, 分布式数据库就是阳振坤老师讲到管帐、记帐、转帐这些业务逻辑的抽象,而 Benchmark 是对功能、对能力、对规范的抽象,正是抽象成就了 30 多年的数据库产业的发展。
数据之于数字化转型
从现在的角度来看,我们怎么来做新的数据库?“Data is power(数据是新能源)”的理论,是 2016 年马云先生在云栖大会上讲的,这个 Power 指的是电,数据给生活带来的深刻改变好比一百多年前,电的诞生对生活带来的深刻改变一样。
虽然四五十年前已经有人意识到数据的重要性,但我们对于数据广泛意义上的重要性是互联网教会我们的。从“蒸汽能 (Steam Power) ”到“电能 (Electric Power) ”再到“数据能 (Data Power) ”,每次 Power 的改变实际上不仅仅是一次产业的巨大改变,它带来还有国际格局的根本改变。
在蒸汽时代之前的马能(Horse Power)时代,中国占据世界中心地位几百年甚至上千年;到了蒸汽时代,英国占据了世界的中心地位;再到了电能时代,美国就取代了英国。而现在的“数据能”时代给中国带来了机会,也给数据库人带来了机会,我们在走向世界中央的路上。
数字经济不是产业的数字化、数字的产业化,这是非常表面的现象,本质上它会带来整个经济格局的改变。 就像电能时代,在把蒸汽时代所有的产业都做一遍的同时,也诞生了一批崭新的产业,比如通信、IT,数据是把人类从工业文明带入数字文明的一个重要能源。
现在我们讲的数字化转型中,数据对于数字化的作用,就像电对于电气化转型一样。2020 年 4 月上旬,美国微软发布了 Microsoft Power Platform,在这个平台上将微软所有的功能集合在了一起。
虽然它没有说这个 Power 指什么,但却强调了 Microsoft Power Platform 是助力数字化转型的低代码平台,现在微软的 Word、Excel、PowerPoint 产品里都融入了 GPT4,所以它讲的 Power 就是 Data,如果把 Microsoft 摘掉,Power Platform 就是我们的电力基础设施,电力、电网、远距离超高压传输电网,一直到家里的配电盘以及变电站里面的变压器,整个这一套就是 Power Platform,它的根本目的要把数据大众化,把开发大众化,把 AI 大众化。
把数据大众化,就是要让大家都能简单地使用数据,要低代码甚至零代码,这是它的基本逻辑,其发展的最高境界就是 AI 大众化,所以我们要做数据赋能平台,也就是马老师以前提到的数据中台。
我们要把数据中台翻译成 Data Power Platform,从而彰显 Data is power。数据库是数据中台的重要功能,根本目的就是我们要认识 Data,知道电压、电流、电阻,我们才研究这一套电,我们要有电网、有继电保护,我们要让数据技术装备化、大众化、平民化、傻瓜化,这是我们的根本目的。虽然我们不见得都理解电,但是我们每个人都会用电,ChatGPT 也是给我们这样的路线,让大家不需要编代码就可以把计算机和 AI 用起来。 “真正的 AI 时代”开始的根本目的就是要让数据大众化,把数据用好。
互联网时代,我们对数据库提出非常广泛的要求,数据库和互联网碰撞到一起,带来非常多的冲击——场景和应用范围不一样了。原本的数据库必须是数据库的用户才能用,现在的数据库是有个手机就能用。
分布式数据库评测基准
伴随着云计算趋于成熟,在这样的情况下,我们未来的分布式数据库在什么地方,OceanBase 是分布式数据库的探索者。我认为分布式数据库要有云上的系统,刚才我们都提到数据库要扩容,要智能运维, 如果要让数据库好用,要让赋能平台好用,就不能仅仅只是“One size fits a bunch”,而应该是像阳振坤提出的观点“One Suite fits all”。
以前我们学分布式数据库时,还没有网络和现在的互联网,现在在应用驱动创新下,有了互联网,进而有了分布式数据库。
▋ Benchmark 对产业形成非常重要
在华东师范大学和 OceanBase 合作过程当中,我们认为:Benchmark 对产业的形成非常重要,也是在这个过程中,我们进行了总结。所以我们一直在研究基准,以此来引导分布式数据库的发展。
基准是应用需求的抽象,有了抽象才能引导,我们都知道实践出真知,由于真知形成了理论再引导实践,正是统一的评测基准引导着分布式数据库的发展,我们对传统的 Benchmark 进行了总结,包括 OLTP 和分布式数据库的总结,在 2022 年有一篇文章,全面地论述了从 Benchmark 的发展到分布式数据库的发展。
数据库历史发展图
我们必须抽象,而抽象一定要从应用当中来,要了解应用的需求。因为应用的需求对分布式数据库的可扩展性、高可用性、可调度性、弹性非常重要,所以为了做到这一点,需要形成量化的标准,我们希望用量化的方式来进行评测。
我们做了分布式数据库评测的套件 Dike,目前已经公布在 Github上面,叫 dbhummer。Dike 是可插拔的、定量的、动态的、不均衡的一种分布的方式,今年也被选中在 SIGMOD 上进行了发表。我们的套件从不同的角度来进行评测,只要是分布式数据库,大家都可以在这上面做 PK,希望以此引导技术往正常的轨道上发展,不会形成恶意竞争。
▋ HTAP benchmark
我们对 HTAP 也做了相应研究,研究 HTAP 的 Benchmark 要点,比如:混合负载、抗干扰能力、实时数据获取能力,在统一的业务场景上进行分析,把 TP 和 AP 放在一起,他们之间会存在交叉,同时保证不同的 HTAP 可横向比较等等,对整个国际 Benchmark 学术界是一个非常重要的热点问题,目前,华东师大和 OceanBase 正在联合研制新的 HTAP 评测基准 Vodka ,我们对已有的系统和标准做了比较,希望很快能出台标准。
华师大能够在数据库研究里面保持领先地位,在国际上保持一定的影响力,很重要的一点就是我们从 2014 年开始,一直在研究 Benchmark。Benchmark 对业界来说就是标准,它对数据库产业的发展和学术的发展非常重要。
最后,数据库是实现赋能最早、最经典的成功案例,我们要从更高的角度看这个 Power,并搭建 Data power Platform,把技术大众化作为根本的出路,Benchmark 是引导数据库发展的正确途径,我们初步的方向在同样的套件上面实现用户所希望的所有功能。
谢谢大家,也祝 OceanBase 越来越好!
欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/