梦晨 詹士 发自 凹非寺
量子位 | 公众号 QbitAI
一年一度特斯拉AI DAY, 开场就王炸!
马斯克只用3分钟简短热场,人形机器人擎天柱 (Optimus)直接登台亮相。
不同于去年概念PPT上光滑圆润的外形,今年的擎天柱金属与线缆裸露在外,就像是电影中的终结者。
现场这台擎天柱,展示了稳步行走、转体俯身、挥手与台下观众打招呼。
录像中的一台还真正走入特斯拉办公室,浇花、帮员工搬运快递。
换到汽车工厂,也有模有样地搬起了砖。
然鹅,马斯克表示这还不是擎天柱机器人的完全形态,只是试做版原型机。
舞台大幕再次拉开,更接近最终产品的“带皮肤”机器人也被搬了上来(这台还要几周时间才能才能下地走路)。
早在特斯拉今年第一季度的财报电话会议上,马斯克就曾表示“擎天柱的价值将超过汽车业务,超过FSD”。
今天他更是直言,达到预计数百万量产规模后,机器人每台售价会大大低于汽车,预计低于2万美元。
接下来,马斯克解释了举办这场活动的目的:
用最酷的技术演示,吸引最有才华的工程师,一起把成果量产,帮助千百万人。
在马斯克眼中,自动驾驶的未来可改善人类交通效率至少半个数量级。
而他对人形机器的野心更大,改善经济生产至少两个数量级。
为啥适合来特斯拉干事业?
马斯克认为,特斯拉作为上市公司,如果公众不认可特斯拉所作所为可以用股权投票。
如果我不合适,甚至可以投票把我开除。
我并不能随心所欲,尽管很多人是这么想的。
现场招聘工程师环节结束后,马斯克本人不再是这场发布会的主角。
而是由机器人各个环节的技术负责人轮番上阵,介绍自己的工作成果。
擎天柱一年,有何进展?
去年8月擎天柱概念首次公开,前面看到的开发平台版与今年2月完成,最新一代成果仍在持续改进中。
不变的是对模仿人类的追求,包括身高体重要与人类相仿,全身关节特别是手部高度自由,以及尽量向生物的低能耗靠拢。
最新版本的特斯拉擎天柱,大脑用的是特斯拉SoC芯片,能源靠的是2.3千瓦时电池组,全身28个执行器(Actuator)。另外手部11个自由度,五指可以独立运动。
不过这个“大脑”是装在胸口的,因为这里更安全,同时集中摆放也更省电。
执行器共设计了6种,旋转执行器与线性执行器各3种规格。
线性执行器中最高规格的一款可以提起一台三角钢琴。
这些执行器装配到机器人全身不同关节,还需要做细致的参数调整。
对双足形态机器人来说,行走是行业公认的第一大难关。
行走对人类是毫无难度的一件事,千百万年进化让你无需思考便能自动执行。
但对双足形态机器人来说,想用完全不同于生物的一套材料、靠人为设计去模仿逼近,工程难度可见一斑。
特斯拉工程师介绍,需要关注有四点:
物理上的自我感知,节省能源的步态、保持平衡不摔倒、全身协调运动。
特斯拉的方法与造车流程如出一辙,设计、仿真、验证。
拿膝盖举例,灵感从人类身上来,但因机械结构材料等问题不能完全模仿人类。除了屈膝迈步以外,还要考虑下蹲拣取物体等情况的受力。
结构设计好后,可以先到模拟环境中规划动作。
一旦来到现实世界的复杂性中,还是走不出三步就会倒。
通过传感器测量,将真实世界的复杂性引入训练环境成了解决问题的关键。
最终特斯拉擎天柱也像波士顿动力Atlus一样,反复训练,甚至适应了人类干扰后才学会在步行中保持稳定。
从迈出缓慢第一步到学会用脚趾离地,总共花费6个月。
而手部运动亦是如此流程,先捕捉人类搬箱子时的运动轨迹,再结合机器人自身特点规划。
特斯拉工程师介绍,双电机版特斯拉汽车只需要考虑有限几种速度和路况。
机器人则要完成行走、上台阶、蹲起、转身等更多身体动作,以及从拧螺丝到提重物等多样任务。
据马斯克此前所透露,擎天柱正式生产最早于明年开始,
不过既然是特斯拉AI DAY,除了机器人以外,自动驾驶和自研超算进展也不能少,下面一起来看看。
自动驾驶
自动驾驶作为特斯拉一块招牌,他们的FSD(Beta)用户数在一年内就从2000飙升到16万。
在AI Day现场篇幅自然不小,核心强调更面向复杂场景将技术做深做精。
比如在没有人行横道的路口左转,对面道路有直行车辆行驶,还得面对个把拉着孩子横穿马路的行人,如若让车从行人面前快速通过也会给对方带来惊吓,造成更多难以预判的行为。
特斯拉称,他们加入安全与舒适性等维度分析,通过树搜索算法并提供人类示范,让系统能找到「合适」通过的时机和路线,最终,从横穿马路的行人身后通过。
再比如六个方向的交叉路口,即便车上配8个摄像头,如遇到其他车遮挡,预测难度也不小。
基于种种复杂场景,特斯拉方公布一个详细架构,让各路摄像头信号通过RegNets,却不同摄像头使用不同RegNet,再进入Special attention层,该架构同样适用于车辆、行人行为预测等场景。
视觉路线一直在圈内质疑不断,现场特斯拉以一个案例作为回应。
他们公布了一种通过语义识别预测周边车辆的方式,即便高速路上,前车捡起雪花挡住视线,使摄像头无法「看见」前车,但算法仍能通过语义预测前车的存在并做出适当决策。
此外,为支撑种种复杂场景的模型训练,其全栈式开发平台已能做到每8分钟生产一路算法模型,以1.4万个GPU组成阵列提供计算支持,此外他们还使用了Accelerated Video Library,增加了30%训练速度。
在边缘端,他们还进行了轻量化处理,让系统降低延迟,8个摄像头通过神经网络快速实时识别建筑及不同路面场景,更快完成3D场景生成。
指的一提的是,在今年4月奥斯汀超级工厂开业庆祝活动及Q1财报电话会上,马斯克都提及了不带方向盘和踏板的自动驾驶出租车产品,不少人预测他会在今天聊聊RoboTaxi,但在现场特斯拉并未提及。
芯片与超算
去年AI Day上,特斯拉公布了D1芯片及超级计算机平台DOJO,用以加速自动驾驶模型训练,一时吸引不少眼球——
后续提问中,有人质疑了他们如何将芯片组合并实现高效编译,今年,他们拿出了具体的答案。
首先关于芯片连接上,他们考虑到芯片连接处热膨胀系数(CTE)问题,于是,干脆做了个外部「骨架」将一个个芯片放入其中,底部配备高速记忆模块,搞了个「铁锁连环阵」:
然后整体封装,放进机柜里:
那么一通操作下来成绩如何?
按特斯拉的说法,他们在经典项目RESNET-50上的计算能力击败了A100:
在替代性方面,他们以自动标注为例,宣称4个DOJO机柜可替代72个GPU RACKS:
对未来,他们更是充满自信,认为不仅现在吊打100,到2023年Q1即可实现多倍超越:
在现场,马斯克也强调特斯拉被外部认为是一家自动驾驶和造车公司,但事实远不止于此,他将特斯拉称为前沿人工智能公司,并补充半导体也是技术的一种体现,紧接着他号召更多人才加入公司,画足了技术愿(大)景(饼)。
其实活动之前,马斯克就早早发出预告,称这次活动是为了招募人工智能和机器人工程师/芯片超算工程师,如此看来,种种秀技术肌肉之举,也带着一鱼两吃的盘算。
One More Thing
马斯克本人在今天的活动中戏份并不多,下台后转头就开始高强度网络冲浪
比如宣称未来会有“猫女”版擎天柱机器人。
又或者给网友的梗图点赞。
看了这么多,最后让擎天柱给大家比个心吧。
直播回放:
https://www.youtube.com/watch?v=ODSJsviD_SU