从大神Alex Smola与李沐离职AWS创业融资顺利,回看ChatGPT大模型时代“底层武器”演进

“We're building something big ... stay tuned. Talk to me if you want to work on scalable foundation models.”

“我们正在建造一个大项目……请继续关注。如果你想在可扩展基础模型上工作,请告诉我。”

“参数服务器之父” Alex Smol教授已于2023年2月从美国著名公有云厂商亚马逊云科技(AWS)离职,创办了一家名为Boson.ai的人工智能公司。

公元2023年的春天,显然也是人工智能的又一春。

Alex Smol教授重新出发并在领英公布了新目标:

“scalable foundation models”(可扩展基础模型)。

这类厂商可被视为ChatGPT跟随者,说是挑战者也行。

不久之前,或者说一周前,他的就职宣言是:“我很高兴地告诉大家,我将在 Boson.ai 开始担任首席执行官兼联合创始人的新职务!”

官宣语不惊人,实则不然,大神李沐也会加入,一同创业。

李沐既没有官宣离旧职,也没有官宣入新职。

业内人士对我说的原话是:“一起创业。”

更进一步的消息是:“融资也很顺利。”

两位神级AI科学家同期离职,共同创业。

有什么事情能感召AI大佬离开顶级大厂创业,那非ChatGPT这样的大模型机会莫属。

AI从不缺惊喜,一路走来都是惊喜,缺的是惊艳。AI已经好久没有新的神秘力量了,AI的尊严都被ChatGPT一把给找回来了。

多年观察,这两位大神师生的故事让我既感慨,又羡慕。

他们大约相识于2012年前后,计划读博的学生几乎都会提前和导师有所沟通。第一次的接触无处可考,可以确定的是2012年8月左右,李沐收到了美国卡内基梅隆大学(CMU)的入学通知。

人人都有万里路,只看你与谁同行。

此后的岁月里,大厂组队,一起写书,一起创业。

那本《动手学深度学习》被业内视为入门深度学习的优秀教材(虽然作者不止他俩)。

2021年2月,我曾在《搞深度学习框架的那帮人,不是疯子,就是骗子》一文中写过他们的部分经历:

“谈起亚马逊和MXNet框架的缘分,就不得不提起一位美国卡内基梅隆大学(CMU)的高人,Alex Smola教授,他也是李沐在CMU的博士导师。2016年7月,Alex Smola教授重返工业界,加入亚马逊AWS担任副总裁级别的科学家(职级为Distinguished Scientist/VP)。大半年后,2017年3月,李沐加入AWS,直接向老师Alex Smola汇报。 师徒同框,双手比V。”

此后,李沐大神洪水般的流量从知乎冲到B站,技术从业者追捧指数业界首屈一指。

“车库教学”“论文精讲”“师从李沐”……说实话,别说初学者、资深工程师、硕博牛人在看,连谭老师我也一连看了好几集,不仅弹幕欢乐,而且回味无穷。

7年光阴转眼间。

虽然Alex Smola是美国名校教授,前AWS高管,但是很多人对他还比较陌生。“参数服务器之父”的名头也不甚响亮。

参数服务器已经是“上古神器”,很早以前没有别的方法,只有它这一种。当年深入观察之后,至今令我印象深刻的,是其思路的巧妙。

这里一定要讲讲参数服务器的前世今生,以及一些AI训练方法上的演进。

一切糟心事的根源都在于模型在变大。

往哪里存,往哪里放,是其中的关键。

除了参数,还有样本抽取的输入,中间结果等等。这些东西,哪样搞坏搞错了,结果都承受不起。

模型小、单机单卡的情况下,信息都在一台机器上,一人闯天下。

要团队,就要分工。分布式训练中,信息要被多人分享。分享效率低,工作就会排队,排队就会浪费时间。

3个人分工,和300人分工,3000人分工,事情不是一个性质。

算力已经很厉害了,于是,AI计算呼唤高性能高带宽的存储和网络。

此时,Alex Smola教授的参数服务器就大有用处。如果你要问其本质是什么,我的答案是:分布式存储和分布式计算。

两者的占比关系是,分布式存储占大头,分布式计算占少量。

参数服务器是一个冲锋队,有领队(server),有分工队员(worker)。专业一点的说法是,分布式训练集群中的节点被分为两类:parameter server和worker。

说worker是分工队员似乎也不是很准确,因为worker这个程序,不是参数服务器的一部分,大家一起协同而已。

总之,server和worker一起干活,server存放模型参数,汇总完了再更新给worker。worker认真干活,server不停地给worker同步“消息”。

这样看上去server像职场里消息灵通的保管员。

除了存储,那一小部分计算是什么?是参数汇总和参数更新的策略等等。

简单原理如上。

一个底层软件层面的巧妙设计,让模型的扩展性战斗指数狂飙起来了。

假如没有参数服务器呢?那么,模型大的压力,就只剩硬件解决方案在硬抗。

比如,工程师做个两级或者三级存储,一部分放显存,一部分放内存,一部分放硬盘。

如此这般,还只是考虑了存储,把计算结果同步的事情搁置在一旁。

于是,我们会说参数服务器对深度学习模型训练的性能和效果的影响都很大。

AI时代,任何影响性能和效果的事情,都是天大的事情。模型靠这个吃饭,干砸了碗就砸了。

AI领域有难题,永远不缺乏解决问题的人。

这时候,超级计算机里的一个技术被拿来解决AI的问题。这个技术就是已经用在并行计算架构里的通信机制。

标志性的里程碑是Ring All reduce,出自2016年百度公司的一篇论文,技术是从“隔壁”借鉴而来的。这事从论文标题一眼就能看出来——《将高性能计算技术引入深度学习》。All Reduce翻译为规约,Ring是环状的意思。

原理就不讲了,Ring All reduce“表现”优秀,使用者越来越多。

或者我们调侃一句:“人工智能的臭毛病,让高性能计算治好了。”

再后来,谷歌和IBM等大公司又不断地拿出新思路。

很难知道OpenAI公司支撑ChatGPT大模型的类似技术是什么思路。

但我们知道,难题在产生,也在被攻克。

比如,大模型分布式存储需要支持1T到10T级别的存储量。

前面也提过,计算(训练)过程里,模型大,中间量(中间变量,优化器状态,参数更新频次和频次表,还有其他变量等等)的体量可能会膨胀4倍。

原来一室一厅够住了,现在高低得整个四室一厅。

这里只谈了一部分工作,协同训练是很有挑战的技术难题

世事不难,吾辈何用。

在分布式上怎么把算力调动起来这件事远没有止境,并且正在持续吸引更多才俊加入到这个领域里来。

谈了很多都是陈年旧事,而人工智能方法上的提高从来没有停止,我只考古了其中几步。

重要之处在于,正是有了底层软件支持,才有了上层大模型的繁荣与爆发。

Alex Smola教授和李沐是这个领域里的大神,他们的实力和眼光都是世界一流的。

ChatGPT火了,在AI应用层急切呼唤惊艳产品的当下,硅谷著名风投A16Z说“基础设施提供商是这个市场中的最大赢家”。

我认为把AI平台、AI框架和AI芯片一起打包定义为“AI基础设施”较为合适。

AI芯片的赢面所有人都已看见,我认为在可预见的将来,Alex Smola教授在本文开头谈到的 “scalable foundation models” ,也就是基础大模型,会成为AI基础设施的一部分。

美国公司OpenAI的基础模型已经足够强大,对它进行改造和再加工的成本很低(相对于从头开发)。

如此一来,云计算厂商即将决胜的战场就是基础大模型能力,有则PaaS层胜出,无则惨败。

在“大模型一出,谁与争锋”的宏大背景音乐里,独立软件公司只要做得足够好,机会就在招手。我想Alex Smola教授和李沐大神选择加入这场战役的原因在于此。

他日“得AI框架者得天下”,

今朝“得基础大模型者得天下”。

大神们独立门户,有决心,有梦想,有市场机会,有资本支持,有对技术的热忱与投入,时不我待。

回忆几年前,好几家云计算厂商对大模型的投入,都想瞅着他人情况行事,没有投入的决心。甚至有的厂商,哪个技术中干开会提要做大模型,老板就当场痛骂谁。

这样也没错,谁不是扛着业绩边擦泪边奔跑。

只是跟随者这把椅子有时候坐着舒服,有时候不舒服。

此地彼方,唏嘘不已。

(完)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/35439.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用UDP实现群聊聊天室

今天为大家带来了一个非常有意思的小程序——UDP实现的群聊聊天室。这个程序使用的UDP协议,并使用DatagramSocket的子类MulticastSocket实现组播,可以部署在一个局域网内的多台电脑上,并可以实现文字群聊。 按照以下几个小节讲解&#xff1a…

【WhatsApp营销】如何为企业构建WhatsApp聊天机器人

关键词:WhatsApp营销,聊天机器人 WhatsApp是全球最受欢迎的消息应用之一。它拥有超过20亿活跃用户,而且目前这个数字还在稳步增长。对于个人来说,WhatsApp是朋友、家人间线上沟通的重要渠道;对于企业而言,…

虚拟人纷纷「出道」,社交泛娱乐场景如何迎接新顶流?

⬆️“政企数智办公行业研究报告及融云新品发布会”明天直播! 本月 12 日,花房集团即将于香港上市。关注【融云全球互联网通信云】回复【融云】抽取高颜值大容量高端可乐保温杯哦~ 中国政企数智办公平台 在带货直播平台的赫赫之名下,娱乐直播…

Unity 3D 使 用 MQTT 实 现 数 据 通 信

最近学习需要在Unity中用到MQTT通信,CSDN下载了一些资料都有报错(主要是也不太看得懂代码不会改),跟B站up复现了一个简单的demo算是加深了一些学习,有需要的初学者可以自取。 demo实现步骤大致如下 1.HslCommunicati…

太猛了!ChatGPT 到 Moss 足以窥见人工智能的未来

最近大家圈内的话题,是不是除了ChatGPT还是ChatGPT,感觉不聊点ChatGPT都跟不上大家的脚步了。各大社交平台上充斥着各式各样与ChatGPT相关的话题,估计大家都在主动或被动的接收ChatGPT的相关资讯。 今天,我们的重点不在ChatGPT&am…

【方案分享】茶叶品牌小罐茶2020品牌营销推广方案.pdf(附下载链接)

大家好,我是文文,今天给大家分享一份品牌营销干货资料《茶叶品牌小罐茶2020品牌营销推广方案.pdf》,对小罐茶以及品牌营销感兴趣的伙伴别错过啦! 另外,我们也搭建了行业交流社群,涵盖营销、电商、互联网、数字化、汽车…

酒水销售网站

开发工具(eclipse/idea/vscode等): 数据库(sqlite/mysql/sqlserver等): 功能模块(请用文字描述,至少200字): 网站前台:网站介绍、帮助信息、酒水资讯、酒水类型、酒水信息、购物分享 管理员: 1、管理网站介…

什么是品牌营销?学会正确推广您的业务

什么是品牌营销? 品牌营销涉及长期战略规划,以推广整个品牌,而不是营销单个产品或服务。它分享了一个引人入胜的故事,以在潜在客户中产生品牌知名度并建立声誉。 面向消费者的品牌使用品牌智能软件来了解人们对其品牌的看法&#…

酒楼拓客营销流程,酒楼宣传推广方案

随著网络时代的发展,许多行业受到了大大的冲击,其中也涵盖酒楼,在目前的情况下,对于酒楼来说,无论是互联网还是线下,引流都是最重要的。那么酒楼如何做好营销推广工作,从而提升业绩?…

小众渠道酒水销售怎么找客户?

一说起酒水大家好像想当然地认为很好销售,但是普通大众只知道广告打得最响的那几个品牌,对于其他酒水并不了解,甚至闻所未闻,所以并不愿意花钱去购买这些中高端的酒水。于是很多企业开始另辟蹊径,不走平民路线&#xf…

如何用ChatGPT举办活动,人类与AI的一次深度对谈

刚刚,Mixlab今年首次线下联合举办的活动开启了,活动不仅分享了AIGC对体验设计的新要求、内容产业的发展研判、用于模拟仿真的生成式智能体,还演示了AI如何深度整合到一场活动之中。 1/ 数字人出场介绍Mixlab 是如何实现的呢?无限…

为什么在马云成功前就有那么多影像留下来?

马云创业的各个阶段,都有意无意得到媒体的推波助澜,不光是影像,还留下了很多相关的文字报道。站在当时的角度,马云或许并不总是以一种成功人士的身份出现,但即便如此,他做事情也足够新潮、足够前卫、或者足…

记录:ffmpeg视频切片

简介 关于视频切片及播放,在这里简单做一个记录。 环境及安装包 服务器:CentOS 版本:CentOS Linux release 7.5.1804 (Core) FFMpeg资源包:ffmpeg-3.1.tar.gz yasm-1.3.0.tar.gz 安装FFmpeg 1.下…

ffmpeg视频切片方案

1.视频播放存在的问题 前提介绍:首先是需要是需要把摄像机的视频接到我们的平台上,目前存在两种方式,一种是需要客户端去实现,一种是在服务器端实现,都是基于ffmpeg去做的 客户端实现,由于客户端有无数个,每一个客户端都去看同一个摄像机视频的时候,摄像机的压力是很大的 1…

python篇---视频切分成图片

视频切分成图片 使用python将视频分割成图片 python版本: 3.7.11 使用到的库:opencv (安装命令:pip install opencv-python) import os import cv2# 定义保存图片函数 # image:要保存的图片 # pic_address:图片保存地址 # num: …

moviepy快速切分视频并保存片段

文章目录 1、直接使用ffmepg2、使用moviepy本身 moviepy安装最新版本: pip install moviepy --pre --upgrade版本是v2.0.0.dev2。 有两种方法一种快速的: 1、直接使用ffmepg from moviepy.video.io.ffmpeg_tools import ffmpeg_extract_subclip ffmpeg…

ffmpeg视频截取切片

通过segment_format指定切片文件的格式 ffmpeg -re -i input.mp4 -c copy -f segment -segment_format mp4 test_outpout-%d.mp4 查看分片文件的开始时间跟结束时间 开始时间: ffprobe -v quiet -show_packets -select_streams v test_outpout-0.mp4 2> x |g…

FFmpeg视频切片

为了解决项目中视频大的问题,我的想法是把视频切分成一小段一小段的短视频,然后按序播放。 m3u8是一项新型播放格式,这种播放格式支持目前市面的windows、androis、ios设备主流的浏览器,同样的视频文件既可以在Flash环境播放&…

关于GPT、AI绘画、AI提词器等AI技术的探讨

目前的AI潮流非常火热,CHATGPT可谓是目前大模型人工智能的代表,刚开始听说chatGPT可以写代码,写作,写方案,无所不能。还有AI绘画也很NB作为一个程序员,为了体验这些A&…

【回答问题】ChatGPT上线了!给我推荐20个比较流行的图像全景分割模型

给我推荐20个比较流行的图像全景分割模型 好的,这是 20 个比较流行的图像全景分割模型:DeepLabv3+ PSPNet FCN U-Net Mask R-CNN UNet++ SegNet ENet ICNet ENet GCN DANet BiSeNet DenseASPP DenseASPPv2 DenseASPPv3 DenseASPPv4 DenseASPPv5 DenseASPPv6 DenseASPPv7 希望…