最近,MIT 教授 Michael Stonebraker 和 CMU 教授 Andrew Pavlo (Andy) 教授联合发表了一篇数据库论文。Michael Stonebraker 80 高龄,是数据库行业唯一在世的图灵奖得主,Andy 则是业界少壮派里的最大 KOL。
一老一少,当今数据库届最王炸的组合,合作写的论文题目是
作为业界顶流,当然是不会刷「An Empirical Comparison of xxx」的水文。不过 What Goes Around Comes Around 的标题也着实特别,中文翻译过来是「种瓜得瓜,种豆得豆」,「因果报应」,而后面又跟了一个 Around。其实这是一篇续作,在差不多 20 年前,Stonebraker 教授和另一位教授,UC 伯克利的 Joseph M. Hellerstein 曾经合著了一篇
而 Andy 其实也是 Stonebraker 教授那篇文章的粉丝。
当年论文的起因是当时数据库界兴起了一股反关系型,反 SQL 的浪潮。而在两位教授眼里,其实是历史的倒退,于是忍不住写了一篇科普文,好心劝大家这些看着时髦的东西之前已经玩过一轮了。
而这次论文的时间点也刚好,站在云和 AI 交叉点之间。下面做一些论文的摘录。
介绍
首先呼应了一下当年的论文,列出了数据库到 2005 年的演进史。
然后列出了近 20 年的发展,分别从数据模型/查询语言(Data Models & Query Languages),以及系统架构(System Architectures) 两部分入手。
数据模型和查询语言
继续呼应当年的论文,事实证明当年的论文判断都没有错。NoSQL 只是一时狂热,当年的 NoSQL 要么都挂了,活下来的,也都老老实实地加上了类 SQL 的语法。
谈到被 AI 带起来的向量数据库,论文的观点是传统的关系型数据库和向量数据库,会和当年的 NoSQL 一样,双向奔赴。
系统架构
列存系统因为优越的性能颠覆了整个数据仓库。
云改变了整个数据库架构,也是所谓的云原生数据库。
云模式也诞生了新的商业模式,以及开源厂商和云厂商间新的商业竞争。
数据湖从一个看似糟糕的主意,经过各种中间件加持,变得可以接受了(数据量那么大,也没有办法)。
NewSQL 同时吸收传统关系型数据库和 NoSQL 的优点。
硬件加速,无足轻重。
区块链数据库,币圈交易所自己都不用。
教授的总结
Oracle,MySQL,Mongo,流行难道是原罪?
小心大公司开源的数据库,人家只是为了晋升,还请你们不要当真。
上手体验很重要,瞧瞧人家 DuckDB。
ORM 是不错,但到头来 SQL 也还是逃不过。
数据库结合 AI,长期乐观,短期怎么交差?
个人点评
前后两篇 What Goes Around Comes Around 都很值得一读。我是在 2010 年前后读到了第一篇,由那篇论文才得以系统性地了解数据库的发展史。而最近的这篇,一方面有近 20 年数据库的发展更新,一方面也有对第一篇里的复盘,所以包含了更多的商业洞见。历史对将来总是有借鉴意义,比如对于向量数据库的展望,我们可以参考之前 NoSQL 数据库的发展。但未来又总是无法预测,即使是全球最顶尖的教授,在当年的第一篇论文里,Open-Source 和 Cloud 两个词的出现次数均为 0。
而 open-source 和 cloud 是近 20 年里,推动数据库行业前进最核心的两个因素。在新的这篇,open-source 和 cloud 分别出现了 17 和 42 次。
另外值得一提的,是在这次新的论文中,也提到了国内数据库厂商,向量数据库赛道的 Milvus 和 NewSQL 的 TiDB。
从大型机,小型机,到互联网,云计算,每一次信息行业的变革,数据库都不会缺席。当下的数据库虽然暂时被淹没在了 AI 的浪潮中,但未来可期。毕竟当年我们只能看到 NoSQL,但也没想到后面更大的云和开源。
希望 Stonebraker 老爷子保重身体,20 年后完成三部曲。
2005 What Goes Around Comes Around. Michael Stonebraker, Joseph M. Hellerstein
https://15721.courses.cs.cmu.edu/spring2020/papers/01-intro/whatgoesaround-stonebraker.pdf
2024 What Goes Around Comes Around… And Around… Michael Stonebraker, Andrew Pavlo
https://db.cs.cmu.edu/papers/2024/whatgoesaround-sigmodrec2024.pdf
💡 更多资讯,请关注 Bytebase 公号:Bytebase