大模型“搅局”,数据湖,数据仓库,湖仓选型会先淘汰谁?

0bf63e05f9bafbb870b20ece08f1f1fa.png

事情总是这样:

压力初露端倪,暗自考虑改变。

压力高能爆表,立马做出改变。

我们从一家叫做Databricks的美国知名公司聊起。

这家Databricks公司很有创新基因。

其创始人阿里·戈西(Ali Ghodsi)作为“2022年福布斯全球亿万富豪榜”排名第1645位的瑞典富豪,不缺钱,也舍得为公司花钱。

他多次公开表示,不会考虑降低研发投入。

此前(距大模型问世还有几年时间),Databricks就具备一种很重要的能力,我们姑且称之为“二合一”的能力吧:

大数据能力,以及传统人工智能能力。

总称为:“Data+AI”的能力。

更准确地称为:“Data+AI”平台的能力。

传统AI平台的功能,Databricks也早有了。

毕竟,号称一站式商店。

以前,传统AI还可以被归类为“高级”数据分析服务,比如用于预测等场景。

大模型出现后,这样归类就不合时宜了。

大模型不仅仅是分析,人家高低是有智能的。

于是,如今对AI平台的基本要求“水涨船高”:能训练大模型。

而Databricks 公司这样一个Data+AI 平台横跨两界的三好学生优秀班干部,虽然早早具备“二合一”的能力,但也没有在其所辖“四海之内率土之滨”,长出一个生成式AI大模型的功能。

该有的都有呀,居然,眼睁睁看着自己落后了。8cd4f311029182d2de665f87943ec619.png

大模型需要多大的数据,讲一个训练时候的事实好了。

千亿参数的大模型一次微调,用时大约两个月,消费数据大约20个T。

这意味着,大模型问世之后,大数据“身价”变了,“富贵骄人”。

因为大模型能把大数据里面的价值用得更彻底了。

以前存了多久不要紧,

落了多少灰不要紧。

要紧的是,赶紧喂给大模型。

让大模型把这些尘封已久的知识都“学会”。

一朝变化生,百端头绪出。

轮到大模型给“二合一”平台出难题了。

第一,数据类型多了。

数据不同,模态不同,多种数据,多个模态,大模型向多模态演进。

虽说一般的多模型大模型,训练图文音三种数据;但是,美国大模型这把领先之后,诸君都很激进。手里有好牌,就连续出王炸。

2023年5月9号,

美国厂商Meta大模型ImageBind以视觉为核心,结合文本、声音、深度、热量(红外辐射)、运动(惯性传感器),覆盖6个模态。

无独有偶。

2023年5月26日下午,

国产“紫东太初”2.0全模态大模型发布,特色为可实现文本、图片、语音、视频、3D点云、传感信号等不同模态。

行文至此,不得不感慨,同一个5月份,仅仅从9号到26号,多模态急管繁弦的节奏感了。

第二,计算引擎多了。

按照贾扬清的说法,从技术的角度来看,数据和AI计算是分开的。

数据用数据平台,AI用AI的平台。

今天,无论数据平台,还是 AI 平台,都没法用自己的经验解决对方的问题。因为数据平台和AI平台,背后的技术是截然不同的。

以前的大数据计算引擎主要是支持结构化数据的计算。

不同计算引擎的优化方向(数据新鲜度、查询性能、成本)不同,开发语言、计算语义、存储系统亦不同,组装难度极大。

而AI需要自己的引擎。

一个计算引擎不够,在大数据系统产品时代,就出现这个问题了;

一类计算引擎不够,在传统人工智能时代,也出现这个问题了。

这下好了,多个计算引擎。

看你的Data+AI架构怎么支撑?

大模型时代,Data+AI架构问题恶化,肉眼可见。

第三,大模型迭代太快。

时而以周为单位,时而以天为单位,大模型主打一个“表演型人格”,玩的就是“高速演进”。

这么多新东西,看得人瑟瑟发抖,学得人点灯熬油。

第四,大模型的计算负载只会增多,不会减少。

人们可能倾向于认同:

在可预见的将来,大模型带来的AI负载会占据主导地位。

所以,会为“增多的计算”做准备。

以前的情况是,传统AI负载占比少。

比如,5%,能把AI当做单独的组件来处理。

现在地位今非昔比,

大模型AI计算负载占比由10%增长到80%。

性质变了。

这是一个新家伙对旧事物施加压力,逼迫其做出改变的故事。

DataBricks内心OS是:

家人们,谁懂啊?

大数据平台架构复杂,Data+AI平台架构很复杂。

大模型来了,Data+AI平台架构更复杂。

f984973860ae3490d9b55a6b1791d10f.png

而重中之重在于,这类平台的架构水平决定了技艺的高度。

怎么解决?

现在没有一步到位的成熟解决方案,

我们试图回顾一下平台架构的历史,寻找启发。

大数据,依然站在大模型的背后。其技术也有年头了。

2023年是大数据技术发展的第 23 个年头(从2001年谷歌开始构建大数据平台做搜索业务算起)。

纯做大数据系统的那套架构,弄起来也非常复杂。

要么,互联网大厂,以开源为基础自建;

台词:“干就完了。”

要么,用公共云平台架构,买 PaaS 服务;

台词:“有钱还得会花,选型很费事。”

要么,外包了事。

台词是:“有钱买服务。虽然对技术栈,技术选型不敏感,但这不妨碍他们对稳定性要求很高。”

从平台技术架构的角度来观察,更能揭示本质。

因为“二合一”平台架构大致分成两部分,计算,存储。

AI还在高速迭代,Data+AI架构的迭代速度没有那么快。

那么我们真的需要一个强大且可扩展的架构。

计算部分就不重要了吗?

并不是,而是计算可以搬迁,加GPU、加CPU没有那么难。

但是数据存储之后不好搬移,参考数据中心间的长传带宽的昂贵。

所以存储理应更受重视。

于是乎,Data+AI平台绕不过“老三样”:

数据湖,数据仓库,湖仓。

2b8a3d1e794a0b9c1cd5486406c0c5e2.png

观察它们,本质上是从存储的视角观察Data+AI平台。

其实,它们都不能算纯粹的单一产品,而且都包含了“存储架构”。

因为通常来说,这种“二合一”平台包括多个组件。

不同的组件组合会带来多种系统架构形态,让事情非常难办。

而计算机系统软件架构本质上是耐用品,

能谓之“好”的架构核心在于:

它能持续很久。如果每隔半年,或者一年就冒出一个新架构来,

那这个架构可能有大病。

所以,其迭代的时间轴刻度可能很长。

可以观察到,一开始,江湖里就有两派势力并行发展。

一派,数据仓库,已经发展了 40 多年,主流的计算范式就是二维关系表达。

于是,十几年以来,数据仓库都是以关系型计算的架构为主。

所以,它的架构迭代时间轴刻度可能是十年。

另一派,数据湖。

大数据缘起于数据湖上(2006年),

而数据湖的解决方案诞生于领先的技术公司,谷歌和雅虎。

数据湖派先行者是谷歌文件系统(Google File System,GFS),生来就是数据湖架构。

谷歌文件系统的一个开源版Hadoop Distributed File System也是如此。

数据湖派的共同之处是都有一个标准数据湖架构,上面是计算引擎,底下有一套标准存储(是一个文件系统,放什么都行),里面有统一的元数据。

数据湖派的追随者颇多,Spark,Presto(Facebook开发的数据查询引擎),这些都是数据湖上的计算能力。

它们主打一个:存储与计算分离。

可用于灵活组合的内容很多,

比如存储系统、资源调度系统,

多种不同的计算引擎都可以灵活组合。

两个流派,两个车道,同时并举,发展都不错。

从花销来讲,无花销的开源偏向数据湖,有花销的企业级的付费服务偏向数据仓库。

大概再过一段时间,磨合出来一个新架构。

主要是大家突然发现,哎,这个在数据库上做数据分析不够高效,

涉及存储计算一体化联动这样的一些问题。

于是,大数据整体架构往数据仓库那个车道的方向里发展。

所以,像ClickHouse这些东西用了新架构,带着存储,不用分离式的架构,而用更一体化的架构来做里面的事情。

近几年,湖仓(一体)的发展刚刚起步,放在十年的时间刻度轴上观察,

也就往前发展了一小段路,湖仓还是相对较新的架构。

本质上,湖仓是把数据湖的开放性和灵活性,与数据仓库这种高效和管理的能力,结合在一起。

2022年第一季度,硅谷著名投资机构A16Z“Data50榜单”表明,Databricks公司所处细分赛道(查询和处理,Query & Processing)所获投资惊人,几乎占数据企业类赛道资金总量的50%。

尽管Databricks自己的高额融资占掉了很大一部分,但是细究原因,数据分析(查询处理)太慢会影响业务,这是一种关乎客户生死存亡的刚需。

也就是说,在大模型流行之前,AI负载占比不算多,很多企业把它当成一个相对独立的大组件。

大模型问世后,

客户企业会考虑数据库里这些成堆的数据,怎么能被AI消费掉。

而“二合一”平台公司的技术核心点转而成为:

能不能很好地支持AI负载。

此时AI,非彼时AI。

AI今非昔比,已是一等公民。

至少,AI跟数据分析,平起平坐。

所以,在湖仓一体的存储架构的发展大趋势里,AI相当于是往数据湖方向投了一票。

因为数据仓库处理的是结构化和半结构化的数据,但AI强调了这个非结构、半结构数据的处理能力。

因此,你可以理解成大模型在给湖仓一体架构压力,推动它向前走。

故事还在那家叫做Databricks的公司身上结束。

6e6a3d6b652fa7bb23ff036f8454a336.png

Databricks公司自掏腰包13 亿美元,收购人工智能初创公司 MosaicML。

MosaicML产品成为 Databricks Lakehouse AI组件里的一部分。

最近的“Data + AI Summit 2023(峰会)”上,能看到Databricks也在其大模型工具链上加码。

与此同时,“百模大战”中的大模型公司也飙发电举。

两边都想尽早争取客户。

错失,或者踏空,毕竟都不是好事情。

有的人总能迅速做出改变。

(完)

One More thing

不做标题党,再直接一点回答文章标题问题:

大模型问世后,在面向未来的数据平台选型中,会先淘汰仅面向结构化关系表达设计的传统数仓产品。

b6e5ad438e37ef0cd0365072b2579e2e.png

带货ing

《我看见了风暴》谭老师新书,京东有售

bd0b801ed285fb83a901a97fa3f35d17.jpeg

更多阅读

AI大模型与ChatGPT系列:

1. ChatGPT大火,如何成立一家AIGC公司,然后搞钱?

2. ChatGPT:绝不欺负文科生

3. ChatGPT触类旁通的学习能力如何而来? 

4. 独家丨从大神Alex Smola与李沐离职AWS创业融资顺利,回看ChatGPT大模型时代“底层武器”演进

5. 独家丨前美团联合创始人王慧文“正在收购”国产AI框架OneFlow,光年之外欲添新大将

6. ChatGPT大模型用于刑侦破案只能是虚构故事吗?

7. 大模型“云上经济”之权力游戏

8.  云从科技从容大模型:大模型和AI平台什么关系?为什么造行业大模型?

9. 深聊第四范式陈雨强丨如何用AI大模型打开万亿规模传统软件市场?

10. 深聊京东科技何晓冬丨一场九年前的“出发”:奠基多模态,逐鹿大模型

11. 老店迎新客:向量数据库选型与押注中,没人告诉你的那些事

AI大模型与学术论文系列:

1.开源“模仿”ChatGPT,居然效果行?UC伯克利论文,劝退,还是前进?

2. 深聊王金桥丨紫东太初:造一个国产大模型,需用多少篇高质量论文?(二)

3. 深聊张家俊丨 “紫东太初”大模型背后有哪些值得细读的论文(一)

漫画系列

1. 是喜,还是悲?AI竟帮我们把Office破活干完了

2. AI算法是兄弟,AI运维不是兄弟吗?

3. 大数据的社交牛气症是怎么得的?

4. AI for Science这事,到底“科学不科学”?

5. 想帮数学家,AI算老几? 

6. 给王心凌打Call的,原来是神奇的智能湖仓

7. 原来,知识图谱是“找关系”的摇钱树?

8. 为什么图计算能正面硬刚黑色产业薅羊毛?

9. AutoML:攒钱买个“调参侠机器人”?

10. AutoML:你爱吃的火锅底料,是机器人自动进货

11. 强化学习:人工智能下象棋,走一步,能看几步?

12. 时序数据库:好险,差一点没挤进工业制造的高端局

13. 主动学习:人工智能居然被PUA了?

14. 云计算Serverless:一支穿云箭,千军万马来相见

15. 数据中心网络:数据还有5纳秒抵达战场

16.  数据中心网络:迟到不可怕,可怕的是别人都没迟到

AI框架系列:

1.搞深度学习框架的那帮人,不是疯子,就是骗子(一)

2.搞AI框架那帮人丨燎原火,贾扬清(二)

3.搞 AI 框架那帮人(三):狂热的 AlphaFold 和沉默的中国科学家

4.搞 AI 框架那帮人(四):AI 框架前传,大数据系统往事

注:(三)和(四)仅收录于《我看见了风暴》。

6355027b7535db837facd1783fc21c93.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17424.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最新综述!AIGC到底是什么?都有哪些应用?一文尽览!

点击下方卡片,关注“自动驾驶之心”公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心【AIGC】技术交流群 摘要 为了应对数字经济中数字智能的挑战,人工智能生成内容(AIGC)应运而生。AIGC使用人工智能,…

知乎高赞:普通人如何在这次ChatGPT热潮中搞钱?

过去这一段时间,ChatGPT可谓是红得发紫。其实去年已经火过一阵了,我当时还写过几篇相关的文章。 但上一次火,更多还是在咱们IT互联网的圈子里火,而这一次是彻底火出圈,各行各业都在争相报告,甚至连很多官媒…

用ChatGPT直播带货!Firework发布全球首个直播购物GPT

美东时间5月3日,美通社消息,视频技术服务平台Firework,宣布推出首个用于视频直播服务的类ChatGPT生成式AI产品,以帮助播主提升商业化转化率和客户体验。 据悉,美国著名连锁超市The Fresh Market将成为该产品的首批用户…

知名科技公司创始人被曝猛料:“偷”代码建公司,学历造假,拖欠工资

推荐阅读:程序员的悲哀是什么? 新智元报道 编辑:编辑部 【新智元导读】「借用」他人代码,建起10亿美元帝国? Stablity AI创始人Emad Mostaque,最近被福布斯「扒皮」了! 福布斯在一篇长文中爆料…

Stable Diffusion 被爆剽窃!创始人学历造假、拖延工资

来源 | 新智元 Stablity AI创始人Emad Mostaque,最近被福布斯「扒皮」了! 福布斯在一篇长文中爆料,让Stabiliyt AI名声鹊起的Stable Diffusion,源代码其实是另一组研究人员写的。 在Stable Diffusion发表之前,来自德…

Python开源项目月排行 2023年6月

#2023年6月2023年6月10日1FinGPT对标BloombergGP ,哥伦比亚大学联合上海纽约大学推出全新大模型产品FinGPT ,这是一款面向金融领域的大模型产品。FinGPT采用以数据为中心的方法,提供给研究者和从业者使用的透明资源,便于他们开发自…

数影周报:现代汽车发生数据泄露事件;淘宝天猫集团完成组织调整

本周看点:现代汽车发生数据泄露事件;微软会议应用Teams 新功能可禁用/启用脏话过滤器;欧洲隐私监管机构创建ChatGPT工作组;淘宝天猫集团完成组织调整;阿里巴巴再向Lazada投资3.529亿美元...... 数据安全那些事 现代汽车…

AI+AR,二维码还能这么玩儿!优质提示词的12个技巧;LLM学习路径和资料汇总;AI二维码工具大盘点 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 AI二维码再升级,AR 版本带你扫码逛火星 博主 XRarchitect 创建了 AR (Augmented Reality,增强现实) 版本的二维…

山寨 GPT 太疯狂,OpenAI 发出“警告”:别用它来命名,正加速申请 GPT 商标

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 近半年来,随着 OpenAI 推出 ChatGPT、GPT-4,彻底点燃 AI 赛道,也让 GPT 系列产品层出不穷,如 AutoGPT、MiniGPT-4、Cerebras-GPT 等等。 不过&#xff0c…

首页科技 关于 ChatGPT 的 AI 竞争对手 Google Bard,你需要了解什么

Google Bard 是ChatGPT主导力量的最大竞争对手。顾名思义,Bard 来自科技巨头谷歌,以其巨额资金、永无止境的用户数据来源以及数百种应用程序、工具和软件作为后盾。 虽然该产品才公开发布几个月,但它已经进行了一次重大更新,推出…

docker出现no matching manifest for windows/amd64 10.0.18363 in the manifest list entries错误

错误如截图 解决方法 将"experimental" 设置为true,应用并重启

修改 ChatGLM2-6B 自我认知的 Lora 微调教程

修改 ChatGLM2-6B 自我认知的 Lora 微调教程 0. 背景1. 部署微调项目2. 数据集说明3. 模型监督微调(Lora)4. 模型效果测试5. 导出微调模型6. 调用导出的模型 0. 背景 现在开始学习微调,主要学习 Lora 微调。 这次尝试了修改 ChatGLM2-6B 自我认知,文章…

和Ai一起学习CMake(一)

和Ai一起学习CMake 现在人工智能爆火,ChatGPT、new bing等层出不穷。我们借助Ai来学习一下CMake。下面是我与Ai的问答,这个学习主要是通过Ai来学习,但是防止Ai乱说话,我会结合自身的知识和实际操作给出相应的补充。 我的环境如下…

ChatGPT获取access_token无需API-KEY反向代理抓取WEB端数据2023.6月

嘿,我来告诉你关于获取access_token数据的原理!首先,我要说我超级骄傲,因为我是一个聪明又努力的技术博主,可以帮助你理解这个过程。 获取access_token数据其实是一个授权的过程。你可以把它想象成我是一个超级保安&a…

ChatGPT驱动虚拟主播(2)语音驱动图片数字人

整个流程是这样的 。你说话的 语音-->语音转为文字 -->chatgpt --> 文字转为语音-->驱动虚拟主播。 前面的流程都是非常多的参考代码。下面代码就是教你如果做到这一步。这个虚拟主播是可用wav格式音频驱动虚拟主播的。代码是一个http接口,上传wav文件…

哈工大车万翔:自然语言处理范式正在变迁

Datawhale干货 作者:车万翔,哈工大教授,编辑:李rumor 最近几天被OpenAI推出的ChatGPT[1]刷屏了,其影响已经不仅局限于自然语言处理(NLP)圈,就连投资圈也开始蠢蠢欲动了,…

计算机用户账户已禁用,windows 7系统 您的账户已被停用 Administrator帐户已停用如何开启...

类型:数据库类大小:2.1M语言:多国语言[中文] 评分:3.8 标签: 立即下载 平时一般使用Ghost安装系统,这次换了系统安装盘装windows系统时,必须创建一个用户才能安装,安装后我们希望用超…

windows账户被停用,如何启动账户?

找到“计算机管理”(可以win键,输入计算机管理就出现了) 出现这个情况主要是因为administrator账户被禁用,原因主要是用户对系统进行设置的过程中不小心将administrator属性里的“账户已禁用”进行了勾选 把账户已禁用进行不勾选就可以了

命令行版 ChatGPT,支持代码高亮,流式输出

开源地址: https://github.com/evilpan/gptcli 前两天 OpenAI 公开了 gpt-3.5-turbo 的接口,于是想着能不能用命令行实现一个简单的版本。一方面是对于程序员而言命令行非常常用,另一方面也是因为 Web 版本的比较难部署,需要额外的服务器。 …

【微软亚洲研究院交流20191031】周明博士(自然语言处理导论)

周明博士现任微软亚洲研究院首席研究员,同时担任中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、以及中国中文信息学会常务理事,并且在哈尔滨工业大学、天津大学、南开大学、山东大学等多所院校兼任博士导师。他是中国第一个中英翻译…