我自己的原文哦~ https://blog.51cto.com/whaosoft/12772867
#MILP-StuDio
拆解高复杂运筹问题的砖石,打破数据稀缺的瓶颈,中科大提出高质量运筹数据生成方法
论文作者刘昊洋是中国科学技术大学 2023 级硕士生,师从王杰教授,主要的研究方向为强化学习与学习优化理论及方法。他曾在 NeurIPS、ICML 和 ICLR 等人工智能顶级会议上发表论文三篇,曾获中国科学技术大学黄渝纪念奖学金、华为奖学金等荣誉。
近日,中科大王杰教授团队(MIRA Lab)提出了矩阵分块分解技术生成数学优化问题,有效解决运筹优化领域数据稀缺的问题,大幅提升 AI 运筹求解器求解质量。
数学优化在运筹优化领域中具有核心地位,是一种通过构建数学模型来寻找最优解的技术。混合整数线性规划(MILP)是一种基础的数学优化问题,在实际世界中有广泛的应用,如工业、金融、物流和芯片设计,其求解效率关系到重大的经济收益。
王杰教授团队提出了一种新颖的 MILP 生成框架,该框架在整个生成过程中考虑问题分块结构,从而生成高质量的优化问题样例,大幅提升求解器的求解质量。目前论文已被人工智能顶级会议 NeurIPS 2024 接收。
- 论文标题:MILP-StuDio: MILP Instance Generation via Block Structure Decomposition
- 论文链接:https://arxiv.org/abs/2410.22806
近年来,该团队已在国际人工智能顶级会议上发表了混合整数线性规划、偏微分方程等数据生成方法相关的论文四篇 [1-4],提出了混合整数优化领域首个基于机器学习的数据生成框架 G2MILP。目前,G2MILP [2] 发表在人工智能顶会 NeurIPS 2023 中并取得大会 Spotlight,之后扩展了难例生成的相关任务并公开于 [5]。
引言
为了加速 MILP 求解过程,传统求解器和 AI 求解器都在很大程度上依赖大量高质量的 MILP 样例进行超参数调优或模型训练。然而,由于高昂的获取成本或隐私问题,获取大量样例通常是困难的,稀缺的训练数据成为严重制约求解器性能的瓶颈。
因此,研究者希望能开发 MILP 优化问题的数据生成技术来缓解数据稀缺的挑战。近年来,通用 MILP 生成方面取得了一些进展。然而,现有方法仍然面临显著的挑战。
(1)目前的方法在生成过程中往往忽略了 MILP 约束系数矩阵中与问题建模紧密相连的特定块状结构,这导致了块状结构的破坏和问题建模的改变,进而产生了难度过低或者不可解的样例。
(2)现有方法未能生成与原始样例不同大小的样例,限制了样例的多样性。
(3)在生成大规模样例时,现有方法需要大量运行时间。
针对上述挑战,研究者尝试分析和利用问题结构以解决上述问题。研究者观察到许多现实世界的 MILP 问题在其约束系数矩阵中表现出重复的块单元模式。基于此,研究者提出了一种新颖的 MILP 生成框架,该框架在整个生成过程中考虑问题分块结构,从而生成高质量的样例。
背景和问题介绍
混合整数线性规划(MILP)是一种应用广泛的通用优化模型,其具体形式如下
现实应用中,许多 MILP 样例在其约束系数矩阵 A 中表现出由多个块单元组成的分块结构。这些具有块结构的 MILP 问题,在现实场景中广泛存在,包括多个被广泛研究的多个数据集,如组合拍卖(CA)、容量设施选址(FA)、物品放置(IP)、多重背包(MIK)和工作负载平衡(WA)等。在图 1 中,研究者使用可视化这些 MILP 样例的约束系数矩阵。
图 1:四个常见运筹优化问题中约束系数矩阵的分块结构
在运筹学中,研究人员早已注意到来自同一问题类型的样例中约束系数矩阵的相似块结构,并意识到约束系数矩阵在确定问题建模和数学性质中的关键作用。因此,现有的一些 MILP 方法已经利用了该分块结构,并在加速此类 MILP 问题的求解过程中展现出了巨大潜力,著名的例子包括求解大规模 MILP 问题的 Dantzig-Wolfe 分解和 Benders 分解。
方法介绍
分块结构分析
现实场景中很多问题,将其约束系数矩阵会重新排列可以得到明显得分块结构。图 2 是一些简单的分块例子,研究者将块单元用蓝色突出显示。尽管这些结构相对简单,但它们是更复杂块结构的基本构建块,并在运筹学中广泛使用。
图 2:一些简单的分块约束矩阵例子
约束矩阵分块
研究者根据约束系数矩阵变量划分算法进行块分解。具体而言,研究者提取约束系数矩阵中块单元的子矩阵。在上面的三个分块例子中,第一个约束矩阵的分块单元子矩阵是
,在第二个例子中是
,在第三个例子中是
。最后,研究者将约束系数矩阵划分为一系列的分块单元的子矩阵。
各样例之间的块单元在内部结构上展现出显著的相似性。这些共同特征表明,块单元的分布蕴含着关于问题建模信息,使其成为重构新样例的理想砖石。在获得分块单元子矩阵后,并将其收集起来构建一个样例结构库。这个结构库作为收集到的子图的存储库,允许高效存储、检索和利用块信息。
通过分块实现可扩展生成
借助结构库,研究者设计了三类生成算子,生成具有多种规模的高质量 MILP 样例。
- 块删减:随机从原始样例中抽取一个分块单元并将其移除,生成的 MILP 样例相比原始样例具有更小的规模。
- 块替换:随机从原始样例中抽取一个块单元,然后用结构库中抽取的另一个块单元进行替换。块替换算子通过引入外部块单元带来了结构上的变化。
- 块增加:从结构库中随机抽取一个块单元并将其添加到原始样例中。这个过程生成的新样例规模相较于原始样例更大。
为了保留块结构,这些操作符应根据约束和变量的分类进行精确匹配结果。
研究者的方法具体流程如图 3 所示。
图 3:方法的总体流程。
实验
研究者实验测试了生成样例的求解时间,发现该方法生成样例的计算难度和可行性与原样例的更加相近。说明生成的样例数学性质得到更好的保持。此外,研究者还将方法生成的样例作为 AI 求解器的训练数据,实验表明该的方法能相比于其他数据生成方法能够跟显著提升求解器的性能,在困难的样例上相比于 Gurobi 降低 66.9% 的 gap。
#困扰数学家近60年的搬沙发难题疑似被解决
119页论文证明最优解,百万网友围观
《老友记》中的罗斯终于能把沙发搬进屋了。
生活中处处充满数学,比如在经典美剧《老友记》中,罗斯要搬家,却在和瑞秋抬沙发上楼梯扶手时翻了车。这涉及了数学领域一个著名的未解决难题 —— 移动沙发问题(the moving sofa problem)。
来源:《老友记 S05E16》
该问题是由加拿大数学家 Leo Moser 于 1966 年正式提出:在宽度为 1 的 L 形平面走廊中,能够通过一个直角转弯的「沙发」的最大面积是多少?
1968 年,数学家 John Michael Hammersley 提出了一种简单的解法。他将沙发设计成类似于一个电话听筒的形状,由两个四分之一圆和一个中间的矩形块组成,中间的矩形块中挖去了一个半圆形,从而得出的沙发最大面积为 2.2074。
但遗憾的是,这并不是最优解。
1992 年,美国数学家 Gerver 在 Hammersley 沙发的基础上进行了改进,算出的最大沙发面积为 2.2195,虽然比 Hammersley 沙发面积略大一些,但在方法上却聪明得多。
Gerver 沙发由 18 条不同的曲线段组成,其中包括圆弧、圆的渐开线以及圆的渐开线的渐开线等多种曲线。每条曲线段都由一个单独的解析表达式描述,这使得 Gerver 沙发在数学上非常复杂。
Gerver 推测他的解决方案是最优的,但他无法证明他的沙发是唯一一个(并且是最大面积的)满足这个强条件的沙发。
2024 年 12 月 2 日,韩国学者 Jineon Baek 发表了一篇新论文,声称证明了 Gerver 确实是正确的 —— 他的沙发是最优的。这项研究在社交媒体(如 x)上的热度非常高,引起了很多人的关注。
图源:x@Scientific_Bird
图源:x@morallawwithin
不过,Jineon Baek 的证明论文足足有 119 页,题目为《Optimality of Gerver’s Sofa》。相关专家验证证明的正确性还需要一些时间。
论文地址:https://arxiv.org/pdf/2411.19826
这道困扰人类 58 年的数学难题终于有了答案,不少网友也发表了自己的看法。
「我甚至不是数学家,自从 20 年前听说这个问题后,我就一直在思考它。每次我需要把东西通过门时,我都会想到这个问题。」
「我没想到这个形状会是最优的,这 18 个部分看起来不够优雅。」
证明过程简述
论文共分 8 章,目录如下:
摘要只有一句话,「通过证明具有 18 个曲线段的 Gerver 沙发的确达到了最大面积 2.2195,进而解决了移动沙发问题」。
下图为 Gerver 的沙发 G。刻度表示构成 G 边界的 18 条解析曲线和线段的端点,包含 G 的支撑走廊 L_t 在右侧以灰色表示。
在证明 Gerver 的沙发 G 达到最大面积的过程中,作者除了在科学计算器上进行数值计算之外,没有使用任何的计算机辅助。下图 1.3 为从走廊(顶部)和沙发(底部)视角来看移动沙发的移动。
下面为作者要证明的定理 1.1.1。
这个问题之所以很难,是因为没有一个通用的公式可以计算所有可能的移动沙发面积。因此,为了解决这个问题,作者证明了最大面积的移动沙发 S_max 的一个属性,被称为可注入性条件(injectivity condition)。
对于每个满足条件的移动沙发 S,作者将定义一个更大的形状 R,它类似于 Gerver 沙发的形状(下图 1.2)。那么 R 的面积 Q (S) 就是 S 面积的上限,如果是 Gerver 沙发 G,则 Q (S) 与 S 的精确面积相匹配。S 的可注入性条件确保区域 R 的边界形成 Jordan 曲线,从而能够使用格林定理计算 Q (S)。
然后,移动沙发 S 面积的上界 Q (S) 相对于 S 的最大值如下所示:作者使用 Brunn-Minkowski 理论将 Q 表示为凸体元组 (K,B,D) 空间 L 上的二次函数(上图 1.2),并使用 Mamikon 定理建立 Q 在 L 上的全局凹性(下图 1.13)。
作者使用加州大学戴维斯分校数学系教授 Dan Romik [Rom18] 关于 Gerver 沙发 G 的局部最优方程,来证明 S = G 局部最大化 Q (S)。由于 Q 是凹的,因此 G 也全局最大化 Q。并且,由于上界 Q 与 G 处的面积相匹配,因此沙发 G 也全局最大化了面积,从而证明定理 1.1.1。
具体来讲,定理 1.1.1 的完整证明分为以下三个主要步骤:
- 步骤 1 :限制最大面积移动沙发 S_max 的可能形状;
- 步骤 2 :建立 S_max 的可注入性条件;
- 步骤 3 :构建满足可注入性条件的移动沙发 S 面积的上界 Q (S),并最大化关于 S 的 Q (S)。
作者提供了步骤 1、2、3 的更细分步骤。
其中步骤 1-(a) 将 S_max 的可能形状缩小为单调沙发(monotone sofa),即由支撑走廊内角雕刻出的凹痕的凸体(下图 1.4)。
步骤 1-(b) 重新证明了 Gerver 的一个重要局部最优条件,即 S_max 的边长应该相互平衡(定理 1.3.1)。
由于 Gerver 的原始证明存在逻辑漏洞,没有解决移动沙发的连通性问题,因此作者引入了新的想法并重新进行了证明。步骤 1-(c) 使用前面的步骤和基本几何来表明 S_max 在移动过程中旋转了整整一个直角。
步骤 2 证明了 S_max 上的可注入性条件,这是之后建立上限 Q 的关键。它表明 L 内角 (0,0) 的轨迹在移动沙发的视角(参考系)中不会形成自环(下图 1.9)。
为了证明 S_max 的这一条件,作者在 S_max 上建立了一个新的微分不等式(等式 (1.9)。该不等式受到了 Romik 的一个 ODE 的启发,该 ODE 平衡了 Gerver 沙发的微分边(等式 (1.8))。
步骤 3-(a) 将所有移动沙发的空间 S 扩展为具有单射条件的凸体元组 (K,B,D) 的集合 L,使得每个 S 一一映射到 (K,B,D) ∈ L(但不一定到 L)。该凸体描述了包围 S 的区域 R 的不同部分(上图 1.2)。
步骤 3-(b) 定义了扩展域 L 上的上界 Q。作者遵循 R 的边界,并使用格林定理和 Brunn-Minkowski 理论中关于 K、B 和 D 的二次面积表达式来表示其面积 Q。同时使用单射条件和 Jordan 曲线定理严格证明 Q (K,B,D) 是 S 面积的上界。
步骤 3-(c) 使用 Mamikon 定理确定 Q 在 L 上的凹度(上图 1.13)。步骤 3-(d) 计算由 Gerver 沙发 G 产生的凸体 (K,B,D) ∈ L 处 Q 的方向导数。Romik [Rom18] 在 G 上的局部最优 ODE 用于表明方向导数始终为非正值。这意味着 G 是 Q 在 L 中的局部最优值。Q 在 L 上的凹度意味着 G 也是 Q 在 L 中的全局最优值。由于 G 处 Q 的值与面积匹配,沙发 G 也全局最大化了面积,最终完成定理 1.1.1 的证明。
更具体的证明细节请参考原论文。
作者介绍
这篇论文的作者 Jineon Baek,本科毕业于韩国浦项科技大学,博士期间就读于美国密歇根大学安娜堡分校。现为韩国首尔延世大学的博士后研究员,导师是 Joonkyung Lee。
Jineon Baek2018 年讲解关于非对角线 Erdős-Szekeres 凸多边形问题视频截图
他主要研究兴趣是组合数学和几何学中的优化问题,这类问题往往通过简单却有趣的表述,能够吸引更广泛的受众。
他在人工智能领域也发表过一些相关文章。他在医学图像处理、教育数据挖掘等领域发表了多篇会议和期刊论文,特别是在 X 射线 CT 图像去噪、考试分数预测、标准化考试准备推荐系统等方面有所贡献。
查阅 Jineon Baek 发表过的文章,就会发现这已经不是他第一次研究移动沙发问题了。在今年 6 月他就移动沙发的上限问题进行了研究。在新文章发布的 12 月 2 日当天,arxiv 上显示,这篇论文提交了一个更新版本(v2),之后撤回了该版本。
现在,不少网友在网上讨论《Optimality of Gerver's Sofa》。
「非常直观,正是大多数人会猜测的那样。不过,我猜证明这一点要困难得多吧?」
「在现实生活中,答案取决于天花板的高度以及沙发是否带有可倾斜的靠背。」
「对于沙发来说,这真的是一个糟糕的设计。」
你怎么看这个移动沙发的最优解呢?
参考链接:
https://x.com/deedydas/status/1865060166322032764
https://x.com/Scientific_Bird/status/1865116279574528088
https://jcpaik.github.io/CV.pdf
#OpenAI的强化微调
RL+Science 创造新神还是灭霸?
2024 年 12 月 6 号加州时间上午 11 点,OpenAI 发布了新的 Reinforcement Finetuning 方法,用于构造专家模型。对于特定领域的决策问题,比如医疗诊断、罕见病诊断等等,只需要上传几十到几千条训练案例,就可以通过微调来找到最有的决策。
数据的形式类似于 instructiong tuning 的常见形式,有多个选项以及正确选项。同一时间,OpenAI 还发布了一个强化微调研究项目,鼓励学者专家们上传自己领域的独特数据,测试他们的强化微调能力。
1
这个结果很漂亮,用的技术正是已经广泛应用于 alignment, math, coding 领域的方法,其前身就是 Reinforcement learning from human feedback (RLHF). RLHF 用来对齐大模型与人类偏好性数据,训练数据的形式为(问题,回答 1,回答 2,偏好),让用户选择更喜欢的回答,学习人类的偏好,训练奖励模型(reward model)。给定 reward model 之后,用强化学习算法 (PPO, DPO)来微调模型参数,微调后的模型更容易生成用户喜欢的内容。
当求解 math 和 coding 问题时,每个问题都有正确答案。这时可以用 MCTS 等 RL 方法,生成大量的不同的求解轨迹,有的正确有的错误,用回答正确的轨迹做 SFT,或者用(正确解法,错误解法)的组合来做 RLHF。更进一步,可以把轨迹生成和 RLHF 微调这两步迭代起来,不断调整 reference policy,迭代不断提高正确率,如 GRPo 或 SPPO 等。
2
OpenAI 的 RFT 只需要很少数据,就能再一些专家场景中,学会医疗诊断和科学决策,这个方法本质上还是 CoT+RL,其中 CoT 这步可以 brainstorm 增强生成多样的不同推理路径,然后根据答对没有来进行打分,再继续做 RL 微调并且迭代。CoT 可以是把一系列的科学 / 医疗常识串联起来。这些常识来自预训练。
难点在于如何定义什么是 RL 里的 state-transition, 也即一步的思维推理。每一步 state transition 是大模型已经学到的科学常识,再用 RL 找到通向高分的完整链路。关键问题是如何做到 token-level 和 full-response level RL 直接找到平衡点,也即如何描述”state”。token-level 的微调效率太低、不容易泛化;full-response level 又会迷糊了推理的过程。
更 fundamental 的问题是:何找到思维链里面的 “state” 呢,思维的 state representation 是不是已经在预训练里涌现出来了?有了合适的 state representation,RFT 就可以 easy, stable and robust。
3
Demo 里也能看出这个技术现阶段的局限性。罕见病排查,从医学角度重要,但是确实已知的科学,而且是已知科学问题中最简单的一类。罕见病的诊断往往有清晰的基因指标,和相对流程化的判别路径。之所以能用很少的数据就学会这个诊断过程,是因为很多人类专家任务的 know-how 其实是简单的决策树,几十个案例就足以囊括底层逻辑。
这类问题本质是多项选择题,只要选择有限,不同选项之间区分度大就很容易掌握。
这个 demo 还规避了 RLHF 里最难搞的 reward modeling 步骤,随便设定一个打分函数就能用,比如正确答案给 1 分,错误答案 0 分。
然而真正的科学问题,往往不是有固定选项的选择题,没有标准答案,如何定义 action,如何定义问题该怎么问,如何给新的科学概念一个定义一个名字,这才是最高级也最有挑战的科学难题。科学的数据也往往是 noisy 的,不是简单的多选题,没有清晰的决策树。
4
讲完了技术的潜力,我们来讨论风险。今天 OpenAI 发布 RFT 的同一时间,推出了强化微调研究项目。这个项目邀请全世界的科研人员提供他们领域的决策数据集,让 OpenAI 来测试其 RFT 推理决策能力,不断进化。
然而,看到这个项目的时候,让人冷汗不已。
今年夏天,我参加美国科学院召开的 AI for science 安全讨论会,包括诺奖获得者 David Baker 在内的很多研究者也在场。讨论会上,每个人都要回答为什么自己正在开发的 AI for science 技术是安全的,是可控的、可追踪的。
如果科学这颗宝石,如果都集中在了同一个非开源公司手里,那么我们造出的是新神,还是带上了无限手套的灭霸?
作者介绍
王梦迪现任普林斯顿大学电子与计算机工程系终身教授,并创立并担任普林斯顿大学 “AI for Accelerated Invention” 中心的首任主任。她的研究领域涵盖强化学习、可控大模型、优化学习理论以及 AI for Science 等多个方向。王梦迪曾先后在 Google DeepMind、高等研究院与 Simons 研究院担任访问学者,并荣获 MIT TR35、美国国家科学基金会(NSF)事业奖、Google 学者奖等多项荣誉。2024 年 7 月,她获颁 AACC Donald Eckman 奖,以表彰其在控制与动态系统、机器学习及信息论交叉领域所作出的杰出贡献。
原文链接:
https://zhuanlan.zhihu.com/p/11273216258?utm_medium=social&utm_psn=1848703455629303809&utm_source=wechat_timeline&utm_id=0
#大模型微调样本构造的trick
对于 ChatGLM2-6B 模型的全参数微调。
开局一道面试题。
面试官:大模型微调如何组织训练样本?
你:大模型训练一问一答,一指令一输出,问题和指令可以作为prompt输入,答案作为输出,计算loss的部分要屏蔽掉pad token。
面试官:多轮对话如何组织训练样本呢?
你:假设多轮为Q1A1/Q2A2/Q3A3,那么可以转化成 Q1—>A1, Q1A1Q2->A2, Q1A1Q2A2Q3->A3三条训练样本。
面试官:这样的话一个session变成了三条数据,并且上文有依次重复的情况,这样会不会有啥问题?
你:数据中大部分都是pad token,训练数据利用效率低下。另外会有数据重复膨胀的问题,训练数据重复膨胀为 session数量*平均轮次数,且上文有重复部分,训练效率也会低下。
面试官:你也意识到了,有什么改进的方法吗?
你:有没有办法能一次性构造一个session作为训练样本呢?(思索)
面试官:提示你下,限制在decoder-only系列的模型上,利用模型特性,改进样本组织形式。
对于这个问题,我们思考下decoder-only模型有啥特点,第一点很关键的是其attention形式是casual的,casual简单理解就是三角阵,单个token只能看到其上文的信息。
如图所示:
其二是postion_id是只有token次序含义而无需特定指代信息,(区别于GLM模型需要postion_id来标识生成span的位置等特殊的要求)。
有了这两点我们就可以设想,如果构造多轮对话样本的input为 Q1 A1 <eos> Q2 A2 <eos> Q3 A3 <eos>,在计算loss的时候,只需要计算 A1 <eos> A2 <eos> 和 A3 <eos>部分,岂不是就可以进行session级别的训练了?
嗯为什么原来的chatglm不能用这种形式呢,虽然prefix attention可以推广为适应多轮训练的prefix attention形式,如图:
但是由于其postition id 无法简单按次序推广,故不能高效训练,这也是chatglm初代的很大的一个问题,导致后续微调的效果都比较一般。
现在chatglm2的代码针对这两个问题已经进行了改善,可以认为他就是典型的decoder-only模型了,具体表现为推断时候attention 是casual attention的形式,position id也退化为token次序增长。
那么好了,万事具备,只欠东风。我们据此实现了chatglm2-6b的代码微调。其核心代码逻辑为处理样本组织的逻辑,其他的就是大模型微调,大同小异了。
conversation = ''
input_ids = []
labels = []
eos_id = tokenizer.eos_token_id
turn_idx = 0
for sentence in examples[prompt_column][i]:sentence_from = sentence["from"].lower()sentence_value = '[Round {}]\n\n问:'.format(turn_idx) + sentence["value"] + '\n\n答:' if sentence_from == 'human' else sentence["value"]+'\n\n'conversation += sentence_valuesentence_ids = tokenizer.encode(sentence_value, add_special_tokens=False) label = copy.deepcopy(sentence_ids) if sentence_from != 'human' else [-100] * len(sentence_ids) input_ids += sentence_ids labels += labelif sentence_from != 'human':input_ids += [eos_id]labels += [eos_id]turn_idx += 1
input_ids = tokenizer.encode('') + input_ids #add gmask bos
labels = [-100] * 2 + labels# #add padding
pad_len = max_seq_length - len(input_ids)
input_ids = input_ids + [eos_id] * pad_len
labels = labels + [-100] * pad_len
其中有几个关键的地方,就是在开头要加上 bosgmask,遵循模型原来的逻辑。问答提示词和轮次prompt,还有两个\n保持和原模型保持一致,最后屏蔽掉pad部分的loss计算。
实测训练效果如下:
同样的数据在chatglm1上 train loss只能降到2.x左右,同时评估测试集结果,在同样的数据上rouge等指标都有不小的提升。
我们再仔细回顾下,对话session级别训练和拆开训练从原理上有啥区别?
1. session级别训练,效果之一为等价batchsize变大(1个batch可以塞下更多样本),且同一通对话产生的样本在一个bs内。
- session级别的不同轮次产生的梯度是求平均的,拆开轮次构造训练是求和的,这样除了等价于lr会变大,还会影响不同轮次token权重的分配,另外还会影响norm的计算。
我们用一个简化地例子定量分析下,我们假设两条训练样本分为
1.问:A 答:xx
2.问: A 答:xx 问: B 答:xx 问: C答:xx
则session级别训练影响梯度为 (Ga+(Ga + Gb + Gc)/3 )/2。对 A,B,C影响的权重分别为,2/3 1/6 1/6。
拆开训练为 (Ga+Ga+ (Ga + Gb)/2 +(Ga + Gb + Gc)/3)/4。对 A,B,C影响的权重分别为,17/24 5/24 1/12。
从上面的权重分布来看,session级别靠后的轮次影响权重要比拆开更大。这也是更合理的,因为大部分场景下,开场白都是趋同和重复的。
一点小福利,以上面试题对应的ChatGLM2-6B 微调完整的代码地址为:
https://github.com/SpongebBob/Finetune-ChatGLM2-6B
实现了对于 ChatGLM2-6B 模型的全参数微调,主要改进点在多轮对话的交互组织方面,使用了更高效的session级别高效训练,训练效果相比原版ChatGLM-6B有较大提升。这可能是目前全网效果最好的ChatGLM2-6B全参数微调代码。
#严禁AI评审
重申大模型审稿0容忍,一首拒稿小诗爆笑全场
审稿人严重不足,审稿意见急剧下滑,CVPR官方坐不住了,不仅出台了七条新规,还再三强调,禁止审稿人用大模型生成/翻译评审结果。
CVPR的投稿量每年都在刷新纪录,总以为今年是巅峰,但明年只会更多。
CVPR 2024收到11532次提交,增幅达到了26%;今年的投稿增速虽然有所放缓,达到13%,但也超过了13000次提交。
投稿量过大,最直接导致的一个问题就是「高质量审稿人不足」,很多人为了简化审稿流程,可能会选择用大模型进行审稿。
比如CVPR 2024大约有9000名审稿人,但投稿作者的数量却超过了30000,为了平衡投稿与审稿,这届CVPR提出了七条审稿新规,来限制不负责任的审稿结果。
目前,CVPR 2025的审稿即将开启,今天也是区域主席提交推荐审稿人的最后期限,与此同时,官方推特再次发文强调了,绝对禁止使用大模型在「任何流程」中参与审稿!
搞笑的,CVPR直接附上了用LLM作了一篇拒稿的小诗的离谱案例。(手动狗头)
不过话虽如此,但网友在评论区中表示,虽然想法是好的,但并没有任何具体、可靠的方式来贯彻执行;即使审稿人用了大模型,也没办法证明这件事。
CVPR 2025审稿新规七板斧
为了应对投稿量的上涨,以及审稿质量的下降,CVPR 2025对会议规定做了七条修正,算是解决「大模型审稿」等问题的一个可行方案:
1、除非作者在CVPR 2025中担任其他职务,否则所有作者都都有义务担任审稿人,负责的审稿数量将根据作者资历水平决定。
2、如果审稿人被区域主席标记为「高度不负责任」,那其提交的论文也可能会被直接拒绝,要根据具体情况而定。
3、每位作者最多提交25篇论文,其中25篇的限制来源于CVPR 2024中单个投稿人最多的中稿数量。不过网友普遍表示,25篇还是太多了。
4、在任何阶段,都不允许使用大模型撰写审稿意见。
5、在最终论文决策公布后,审稿人的姓名在OpenReview上也会对其他审稿人可见。
6、每位投稿人都需要填写完整的OpenReview个人资料,以便更好地进行分配审稿人和利益冲突检测,否则论文也会被直接拒绝。
7、CVPR 2025的审稿数据会共享给其他会议,对不负责的审稿人可以起到长久的限制作用。
其中第二条最具威慑性,不负责任的审稿意见包括,只有一两句内容、使用大模型生成、与被审论文不相关,或者是遗漏了重要内容。
对于大模型,CVPR特意在审稿指南中列出要求:不能要求大模型撰写审稿内容,只能根据自己对论文的判断;不能向大模型共享论文或评审中的实质性内容,比如用大模型来翻译评审意见;可以使用大模型进行背景调研或语法检查,以确保审稿意见清晰。
不过具体执行时,这七条新规能否起到作用,还要等CVPR 2025论文录用结果发布后,再看各家网友对审稿结果的反应如何。
大模型审稿,堵不如疏
早在2023年1月,ICML就发布了关于禁止使用大模型来撰写论文的规定。
严禁任何形式的抄袭,以及审稿人、领域主席(AC)和高级领域主席(SAC)对特权信息的不道德使用,例如共享此信息,或将其用于评审过程以外的任何其他目的。
禁止包含从大模型(LLM)(如ChatGPT)生成的文本的论文,除非这些生成的文本作为论文实验分析的一部分呈现。
所有可疑的不道德行为都将由道德委员会进行调查,被发现违反规则的个人可能会面临制裁。
当时网友的普遍反应都是不理解,认为使用大模型进行润色是很正常的,MIT教授Erik Brynjolfsson甚至评价为「一场必败的仗」;LeCun当时还玩了一个文字游戏,「中小型模型」可以用吗?
如今看来,ICML确实败了,CVPR 2025新规中,允许使用大模型润色,但仍然不允许编写实质性审稿内容。
凡是合乎理性的东西都是现实的,凡是现实的东西都是合乎理性的。
既然用大模型审稿有他存在的现实意义,那么也一定有其合理性,科研大势就是使用大模型参与到审稿、论文编写过程中,已经有大量的相关研究来利用大模型辅助人类审稿,还提出相关评估基准等。
论文地址:https://arxiv.org/abs/2310.01783
比如斯坦福学者发现,GPT-4对于Nature、ICLR的论文给出的审稿意见,和人类审稿人已然有超过50%的相似性,未来让大模型辅助论文评审,也并不是完全不靠谱。
再换个思路,难道人类审稿就一定靠谱了吗?
既然无法一禁了之,更好的方法或许是引导审稿人合理利用大模型,比如官方提供大模型接口界面,标注出论文中的关键点,方便审稿人快速、直观地理解论文内容;有了更方便的工具之后,寻求外部大模型工具进行优化的动力就会小很多。
另一方面,科研人员也可以对所有大模型参与审稿的过程进行标准化,评估不同模型在审稿过程中的可靠性。
靠强硬规定来禁止大模型并不具备可操作性,只能起到威慑作用,即便引入所谓的「大模型数字签名」,甚至是用分类模型来判断审稿意见是否由AI生成,只要提交者自己重新编辑一下审稿意见,是否使用大模型也就无从判断了。
关于大模型审稿,你怎么看?或者说,你希望自己的论文被大模型评审吗?
参考资料:
https://x.com/CVPR/status/1865231116317212952
https://cvpr.thecvf.com/Conferences/2025/ReviewerGuidelines
#Densing Law
LLM最大能力密度100天翻一倍!清华刘知远团队提出
支持大模型一路狂飙的 Scaling Law 到头了?
近期,AI 圈针对 Scaling Law 是否到头产生了分歧。一派观点认为 Scaling Law 已经「撞墙」了,另一派观点(如 OpenAI CEO Sam Altman)仍然坚定 Scaling Law 的潜力尚未穷尽。
其实以上争论的核心点在于,大模型的性能提升是否还能继续靠无限堆叠数据和参数规模从而大力出奇迹。
然而 Scaling Law 并非唯一的视角,近期,来自清华大学刘知远教授团队发现并提出大模型的密度定律(Densing Law)—— 模型能力密度随时间呈指数级增长,2023 年以来能力密度约每 3.3 个月(约 100 天) 翻一倍。这意味着每 100 天,我们可以用一半参数量实现当前最优模型相当的性能。
根据密度定律,研究团队还得出以下重要推论,并且发现 AI 时代的三大核心引擎——电力、算力与智力,都同样遵循密度快速增长趋势。
- 推论 1 :模型推理开销随时间指数级下降。
- 推论 2 :大模型能力密度正在加速增强 。
- 推论 3:模型小型化揭示端侧智能巨大潜力 。
- 推论 4:无法依靠模型压缩算法增强模型能力密度 。
- 推论 5:模型高性价比有效期不断缩短。
该定律还揭示了端侧智能的巨大潜力,并指出未来应持续探索大模型科学化建设路径,不断改进模型制造工艺,实现大模型的高质量、可持续发展。
相关研究成果可参考论文《Densing Law of LLMs》。
- 论文标题:Densing Law of LLMs
- 论文链接:https://arxiv.org/pdf/2412.04315v2
Scaling Law 和 Densing Law
大模型尺度定律(Scaling Law)和密度定律(Densing Law),都是大模型指导性的规律发现。它们分别在不同的维度,对大模型进行科学化的推演。
大模型尺度定律是一种描述大模型随着规模的变化而发生的规律性变化的数学表达,表现为大模型的 Loss 与模型参数规模、训练数据规模之间的幂律关系。
尺度定律之外,清华研究团队发现,大模型还有另一种度量与优化的空间,能力密度(Capability Density),它为评估不同规模 LLM 的训练质量提供了新的统一度量框架。
清华研究团队提出的「能力密度」(Capability Density),定义为给定 LLM 的有效参数大小与实际参数大小的比率。有效参数大小指的是达到与目标模型同等性能所需的参考模型的参数数量。清华研究团队特别引入了参考模型(Reference Model)的概念,通过拟合参考模型在不同参数规模下的性能表现,建立起参数量与性能之间的映射关系。
具体来说,若一个目标模型 M 的参数量为 N_M ,其在下游任务上的性能分数为 S_M,研究人员会计算出参考模型要达到相同性能所需的参数量 N (S_M),即「有效参数量」。目标模型 M 的密度就定义为这个「有效参数量」与其实际参数量的比值:
比如一个 3B 的模型能达到 6B 参考模型的性能,那么这个 3B 模型的能力密度就是 2(6B/3B)。
为了准确估计模型性能,研究团队采用了两步估计法。第一步是损失(Loss)估计,通过一系列不同规模的参考模型来拟合参数量与语言模型 Loss 之间的关系;第二步是性能估计,考虑到涌现能力的存在,研究人员结合开源模型来计算它们的损失和性能,最终建立起完整的映射关系。
通过研究分析近年来 29 个被广泛使用的开源大模型,清华研究团队发现,LLM 的最大能力密度随时间呈指数增长趋势,可以以下公式来描述,其中 ρ_max 是时间 t 时 LLM 的最大能力密度。
密度定律表明,大约每过 3.3 个月 (100 天),我们就能用参数量减半的模型达到当前最先进模型的性能水平。
基于密度定律,清华研究团队提出了多个重要推论。
首先,模型推理开销随时间指数级下降。2022 年 12 月的 GPT-3.5 模型每百万 Token 的推理成本为 20 美元,而 2024 年 8 月的 Gemini-1.5-Flash 模型仅为 0.075 美元,成本降低了 266 倍,约 2.5 个月下降一倍。与此同时,大模型推理算法不断取得新的技术突破:模型量化、投机采样、显存优化 。
其次,研究还发现,自 ChatGPT 发布以来,大模型能力密度正在加速增强 。
以 MMLU 为评测基准测量的能力密度变化情况,ChatGPT 发布前按照每 4.8 月倍增,发布后按照每 3.2 月倍增,密度增强速度增加 50% 。这一现象背后,更高效模型引起了学术界和产业的广泛关注,诞生了更多高质量开源模型。
再次,芯片电路密度 (摩尔定律) 和模型能力密度 (密度定律) 持续增强,两条曲线交汇揭示端侧智能巨大潜力。研究显示,在摩尔定律的作用下,相同价格芯片的计算能力每 2.1 年翻倍,而密度法则表明模型的有效参数规模每 3.3 个月翻倍。两条曲线的交汇,意味着主流终端如 PC、手机将能运行更高能力密度的模型,推动端侧智能在消费市场普及。
此外,团队指出,无法仅依靠模型压缩算法增强模型能力密度 。现有的模型压缩技术(如剪枝和蒸馏)未必能提高模型密度。实验表明,大多数压缩模型的密度低于原始模型,模型压缩算法虽可以节省小参数模型构建开销,但是如果后训练不充分,小参数模型能力密度将会有显著下降。
最后,研究团队指出,模型高性价比有效期不断缩短。根据尺度定律,更多数据 + 更多参数实现能力增强,训练成本会急剧上升;而能力密度定律,随着能力密度加速增强,每隔数月会出现更加高效的模型。这意味着模型高性价比的有效使用期缩短,盈利窗口短暂。例如,2024 年 6 月发布的 Google Gemma-2-9B 模型,其训练成本约 185 万人民币,但仅两个月后,它的性能就被参数量减半的 MiniCPM-3-4B 超越。以 API 盈利方式估算,2 个月内需要 17 亿次用户访问,才能够收回训练成本!
Densing Law(密度定律)揭示 LLM 进入「密度至上」新发展阶段
尺度定律下,LLM 规模至上。而在密度定律下,LLM 正进入一个全新的发展阶段。在清华刘知远老师最新报告中,AI 时代的三大核心引擎 —— 电力、算力与智力,密度都在快速增长:电池能量密度在过去 20 年中增长了 4 倍,其倍增周期约为 10 年;摩尔定律则揭示,芯片的晶体管密度每 18 个月翻倍;而 AI 模型能力密度每 100 天翻倍的速度更是惊人。
尤其是模型能力密度的提升也意味着用更少的资源实现更强的能力,这不仅降低了 AI 发展对能源和算力的需求,也为 AI 技术的可持续发展提供了无限可能。同时也揭示了端侧智能的巨大潜力 。
在这一趋势下,AI 计算从中心端到边缘端的分布式特性协同高效发展,将实现「AI 无处不在」的愿景。随着全球 AI 计算云端数据中心、边缘计算节点的扩张,加上模型能力密度增长带来的效率提升,我们将看到更多本地化的 AI 模型涌现,云端和边缘端各司其职,可运行 LLM 的终端数量和种类大幅增长,「AI 无处不在」的未来正在到来。
#新版Sora要来了?
泄露视频引围观,网友:价格别太离谱
Sora 真的要来了?
最近几天,OpenAI 开启了为期 12 天的连续发布,第一天发布的 o1 完全体和 200 美元一个月的 ChatGPT Pro 刷新了外界对 AI 大模型定价的认知;第二天发布的强化微调(Reinforcement Fine-Tuning)则吸引了大批研究者和开发者的兴趣。
那第三天发什么呢?种种信号表明:很有可能是新版本的 Sora。
这种猜测源自 OpenAI 创意专家 Chad Nelson 在伦敦 C21Media 活动中的一次分享。在分享中,Chad Nelson 现场播放了多段由 Sora 生成的视频,并着重介绍了视频中的一些细节,比如在一个战争场面中,一个女战士的脸上、皮肤上甚至牙齿上都布满了泥浆和鲜血,而且这些印迹是有 3D 深度的(说明已经凝固),这说明 Sora 对于它所生成的场景是有一定了解的。
,时长02:07
根据泄露的现场视频,网友还整理出了更多关于新版本 Sora 能力的信息:
而且,从画面效果来看,Sora 生成的视频无论是分辨率还是帧率似乎都很高,主体一致性也令人印象深刻。
如果 ChatGPT Pro 那 200 美元的订阅费用里包含 Sora,可能这个费用看起来就没有那么离谱了。
除了这个泄露视频,OpenAI 官方 Youtube 账号也在周末放出了新的 Sora 作品,这或许也是给 Sora 的新发布做预热。
,时长01:18
在刚刚上传的视频中,我们可以看到一群狂欢的年轻人在跳舞。该视频由东京跨学科艺术家 Emi Kusano 借助 Sora 完成。
根据介绍,这个项目是受到了 1980 年代一个时尚团体 Takenoko-zoku 启发创作出来的。
根据视频内容,我们不难发现 Sora 精准地捕捉到了一群年轻人狂欢的场景,特别是舞蹈场景,展现了 Sora 独有的、可以创造出一种人类难以复制的独特魅力。尤其是多人物同屏,以及画面的表现力运镜非常高级,同时它还保持了电影般的质感,人群中的每个个体细节表现非常出色。
Emi Kusano 表示,创作过程中最让她兴奋的是 Sora 能够将自己脑海中想象的图像通过提示转化为视频,她将这种感觉形容为像是掉进了兔子洞(兔子洞源于著名童话书《爱丽丝漫游奇境记》,在这本书中,主角爱丽丝从兔子洞掉入了一个拟人化的异境世界,开启了她奇妙的旅程)。
看到最新版 Sora 视频,大家都用难以置信来形容,同时也希望如果 Sora 单独收费,价格不要太离谱。毕竟 ChatGPT Pro 已经高达 200 美元一个月了。
接下来,大家可以期待一下 OpenAI 即将要发布的内容,你认为新版 Sora 会来吗?
参考链接:
https://www.youtube.com/watch?v=c_kKKRQ5gYw
https://x.com/JustinLin610/status/1865798885643620400
#LIFT3D
3D具身基础模型!北大提出Lift3D赋予2D大模型鲁棒的3D操纵能力
为了构建鲁棒的 3D 机器人操纵大模型,Lift3D 系统性地增强 2D 大规模预训练模型的隐式和显式 3D 机器人表示,并对点云数据直接编码进行 3D 模仿学习。Lift3D 在多个仿真环境和真实场景中实现了 SOTA 的操纵效果,并验证了该方法的泛化性和可扩展性。
该项目由北京大学和北京智源研究院的仉尚航团队研究,作者包括北京大学博士生刘家铭、贾越如、陈思翔、顾晨阳、王之略、罗珑赞等。HMI 实验室长期致力于具身智能和多模态学习领域的研究。
- 论文链接: https://arxiv.org/pdf/2411.18623
- 论文标题:Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation
- 项目主页: https://lift3d-web.github.io/
- 代码链接: https://github.com/PKU-HMI-Lab/LIFT3D
,时长05:20
1. 摘要
3D 几何信息对于机器人操纵任务至关重要,因为机器人需要感知三维环境,推理空间关系,并与复杂的几何物体进行交互。近年来,研究逐渐聚焦于显式提取 3D 特征,但仍面临诸如:缺乏大规模机器人 3D 数据和潜在的空间几何信息丢失等挑战。为了解决这些问题,我们提出了 Lift3D 框架,通过隐式和显式的 3D 机器人表示逐步增强 2D 大规模预训练模型的 3D 空间感知能力,从而构建一个鲁棒的 3D 操纵策略。具体来说,我们首先设计了一个任务感知的掩码自编码器,该自编码器通过 Mask 与任务相关的 Affordance token 并重建深度几何信息,增强了 2D 基础模型的隐式 3D 机器人表达能力。在自监督微调之后,我们引入了一种 2D 基础模型 Lifting 策略,该策略在输入 3D 点和 2D 模型的位置编码之间建立了位置映射关系。基于该映射,Lift3D 利用 2D 基础模型直接显式的编码点云数据,借助大规模预训练知识提升 3D 模仿学习效率,同时最小化空间信息丢失。
图 1: 为了赋予大规模 2D 预训练模型 3D 操控能力, Lift3D 首先通过 mask 任务相关的 affordance 区域和深度重建,以提升隐式 3D 机器人表示;随后通过利用预训练的 2D 位置嵌入来直接编码 3D 点云数据,进行显式 3D 操纵模仿学习。Lift3D 在各种仿真(i.e., 机械臂,灵巧手)和现实世界任务中展现出强大的鲁棒性和令人惊讶的效果
为了全面评估我们提出的 Lift3D,我们在三个模拟器和多个真实场景中进行了广泛的实验,包括 30 多种不同的机械臂 gripper 和灵巧手操控任务,如图 1 所示。Lift3D 在各种任务上均表现出色,即使仅使用最简单的 MLP 策略头和单视角点云,也能够展示鲁棒的操纵能力和对机器人 3D 空间感知的理解。同时,我们通过逐步增加模型的参数量至 1B,验证了我们方法在多个复杂任务上的可扩展性。在真实世界实验中,Lift3D 在每个任务上只需 30 个 demonstration 的数据即可学习新的操控技能。为了评估 Lift3D 的泛化能力,我们在真实世界测试过程中融入了不同的操纵物体、背景场景和光照条件。Lift3D 展现出强大的泛化能力,能够有效利用 2D 大规模预训练知识和全面的 3D 机器人表示。
2. 研究背景
基于视觉的操纵策略的核心目标之一是理解场景并预测相应的 3D 位姿。一些现有的方法利用 2D 图像作为输入,通过强化学习或模仿学习直接预测 3D 末端执行器的位姿。尽管这些方法能够有效地处理一系列操纵任务,但它们未能完全理解物理世界中的空间关系和 3D 结构。在机器人操纵中,3D 几何信息对于应对复杂任务至关重要,因为机器人必须感知 3D 环境、推理几何关系并与复杂的空间物体进行交互。
近年来,研究越来越多地集中在机器人操纵任务中显式提取 3D 特征表示,这些方法可分为两类:1)一些方法直接编码点云数据,通过从头开始训练 3D 策略模型或微调预训练的点云编码器(例如 PointNet++ 和 PointNext)。然而,由于缺乏大规模机器人 3D 数据和基础模型,限制了它们的泛化能力。此外,处理 3D 或体素特征需要大量计算资源,这限制了其可扩展性和在现实世界应用中的可行性。2)另一方面,一些方法涉及模态转换,例如将预训练的 2D 特征提升到 3D 空间,或将 3D 点云投影到多视角图像中,以供 2D 预训练模型输入。尽管在一些后续的操纵任务中表现出色,但这些模态转换不可避免地导致空间信息的丢失,并不能完全激发模型对 3D 空间关系的理解。
基于上述 3D 策略中的挑战,我们提出了一个问题:“我们能否开发一个即有大规模预训练知识,又融合完整 3D 空间数据输入的 3D 策略基础模型?”
3. Lift3D 方法
3.1 贡献概述
- 我们提出了 Lift3D,通过系统地改进隐式和显式的 3D 机器人表示,将 2D 大规模预训练模型提升为鲁棒的 3D 操纵策略模型。
- 对于隐式 3D 机器人表示,我们设计了一种任务感知 MAE(Mask Autoencoder)自监督方法,它对任务相关的可操作区域进行掩蔽,并重建深度几何信息,从而增强 2D 基础模型的 3D 空间认知。
- 对于显式 3D 机器人表示,我们提出了一种 2D 基础模型 lifting 策略,利用 2D 基础模型的预训练位置编码(PE)来编码 3D 点云数据,用于 3D 操纵模仿学习。
3.2 Task-aware Masked Autoencoder (隐式 3D 机器人表示)
图 2: Lift3D 的整体流程。a) 对于隐式 3D 机器人表示,我们利用 CLIP 离线提取基于任务描述的图像注意力图,并将其反向投影到 2D 输入图像上,以指导 MAE 的掩码。然后,我们将可见的 tokens 输入 2D 基础模型进行特征提取。掩码 tokens 和编码后的可见 tokens 经过 MAE 解码器进行深度重建,从而增强 3D 空间感知。同时,编码后的可见 tokens 还会通过与原模型的特征进行蒸馏,以减轻灾难性遗忘问题。b) 对于显式 3D 机器人表示,我们首先将点云数据投影到多个虚拟平面上,建立 3D 输入点与每个虚拟平面上的 2D 位置嵌入(PEs)之间的位置映射。映射完成后,我们将每个 3D 补丁对应的 2D PEs 进行平均,形成统一的 3D 位置嵌入(3D PEs),然后将其与 3D tokens 结合。这些 3D tokens 是通过将点云输入轻量级 3D 分词器生成的。最后,来自 2D 基础模型的输出特征通过策略头进行处理,以预测模仿学习的位姿。
一些研究表明,2D 基础模型在各种下游机器人任务中展示了强大的操纵和泛化能力。在此基础上,Lift3D 首先增强了 2D 基础模型中的隐式 3D 机器人表示。现有的机器人 MAE 重建方法大多采用随机掩码。然而掩码部分可能主要包含无关的背景信息,这会阻碍对于前景物体表示的有效学习。不同于之前的方法,Lift3D 的目标是掩码与任务相关的 Affordance token,并重建深度几何信息,从而增强 2D 基础模型的 3D 空间感知能力。
具体而言,利用来自机器人操作的大规模数据集来构建 MAE 训练数据集,该数据集包括从视频中随机抽取的 100 万个训练样本,包含配对的图像和深度数据。如下图 2 a) 所示,具体的操作步骤如下:
1. 一旦获得数据,使用多模态模型(例如,CLIP)基于任务特定的文本描述生成图像 attention map。例如,图 2 中提取 attention map 的文本提示是:“机械臂将红色碗放入灰色碗中”。然后,这些 attention map 会被双线性插值并反投影到输入图像上,用于引导 MAE 的 mask 策略。为了区分与任务相关的可操作性标记和背景标记,我们对所有标记的注意力值应用一个阈值进行过滤。与之前的方法一致 [28],我们也随机遮掩背景标记,以达到所需的比例(即 r=0.75)。
2. 重建目标在遮掩图像建模中起着至关重要的作用,直接影响特征表示的学习。先前的机器人 MAE 方法通常使用低级的 RGB 信息作为重建目标 [52, 60, 62]。为了增强 2D 基础模型的 3D 空间感知能力,我们重建任务相关的可操作性图像块和随机选择的背景图像块的深度信息。
3. 为了保持基础模型的固有能力,引入蒸馏损失,约束可见标记输出和原本 2D 预训练模型中对应特征之间的距离。在第一阶段的训练过程中,我们通过重建和蒸馏损失来微调注入的适配器和解码器,损失函数公式为:
3.2 2D Model-lifting Strategy (显式 3D 机器人模仿学习)
在赋予 2D 基础模型隐式的 3D 机器人感知能力后,我们引入了一种 Lifting 策略,使 2D 模型能够显式地理解点云数据。近期的工作,无论是将 3D 点云投影到多视图图像中,还是将 2D 特征提升到 3D 空间中,都面临由于模态转换而丢失空间信息的挑战。因此,高效地编码 3D 数据一直是 3D 机器人领域的一个关键研究方向。
对于基于 Transformer 的 2D 模型,位置嵌入(PEs)起着重要作用,因为它们为注意力机制中的输入 token 提供了位置信息。然而,直接创建新的 3D 位置嵌入来编码 3D token 可能会引入语义差异,这些差异源于预训练的 2D 基础模型与新添加的 3D 位置嵌入之间的不同,从而可能导致大规模预训练知识的丧失。因此,受 [23, 24, 71] 启发,将 3D token 投影到多个虚拟平面上。与之前的工作不同,我们的投影过程并不是为了构建模型的输入,而是为了在输入的 3D 点和每个虚拟平面的预训练 2D 位置嵌入之间建立位置对应关系。然后,这些 2D 位置嵌入被用于直接编码 3D 标记。
如图 2 b) 所示,我们将原始的点云数据转化为高维空间 (B x 128 x 768),通过轻量级的 3D 标记器获得 k 个(k = 128)3D token。3D tokenizer 由最远点采样、k - 最近邻聚合算法和可学习的线性层构成,用于特征编码。随后,每个 3D 坐标投影到 n 个虚拟平面上,得到相应的 3D 到 2D 的坐标对应。投影机制无可学习参数且高效,我们采用带有 6 个面的立方体投影方法,有效捕获空间信息。这 n 个虚拟平面对应于 n 个原始的 2D 位置嵌入。
使用 3D 到 2D 坐标对应,将每个 3D token 分配到 n 个原始 2D 位置嵌入。在将每个 3D 标记与 n 个 2D 位置嵌入对齐后,我们通过平均值的方式创建一个统一的 3D 位置信号,表示为:
将 3D 位置嵌入与 3D tokens 结合,输入到 2D 基础模型中。通过这种方式,我们利用 n 个结合的原始 2D PEs 来编码 3D tokens,从而有效地提供了 2D 空间内的多样位置关系,并减轻了 3D 集合信息的丢失。来自 2D 基础模型的输出特征将通过一个简单的 policy head 进行处理,以预测用于模仿学习的位姿。我们使用三层多层感知机(MLP)来构建策略头。需要注意的是,我们的 Lift3D 编码器可以轻松适配不同的解码器或策略头,例如 Diffusion Transformer, Large Language Model;这里使用 MLP 头部是为了简单验证。最后,模仿学习的损失函数如下所示,其中 T、R 和 G 分别代表末端执行器位姿中的平移、旋转和夹持器状态。
4. 模拟器实验
4.1 基准测试
从三个广泛使用的操纵模拟器 benchmark 中选择了 30 多个任务:MetaWorld 和 Adroit 在 MuJoCo 模拟器中的任务,以及 RLBench 在 CoppeliaSim 模拟器中的任务。点云数据通过使用相机外参和内参从单视图 RGBD 数据中获得。对于 MetaWorld,选择了一个包含 Sawyer 臂和双指夹持器的桌面环境,并从不同难度级别中选择了 15 个任务。这些任务从两个角落摄像头视角捕捉,任务分类如下:简单任务:按钮按压、抽屉打开、到达、拉手柄、插头拔出、拉杆和旋钮转动。中等任务:锤子、清扫、垃圾桶取物、推墙和箱子关闭。难度较高任务:组装、手伸入和架子放置。对于 Adroit 任务,重点是使用与 [52] 中相同摄像头视角的灵巧手操作,包括了三个任务:锤子、门和钢笔。对于 RLBench,它使用 Franka Panda 机器人和前视摄像头。具体任务选择见论文 Appendix。
4.2 基线对比
Lift3D 的创新之处在于系统性地增强了隐式和显式的 3D 机器人表示。为了评估其有效性,将 Lift3D 与来自三个类别的 9 种方法进行了比较:
1)2D 机器人表示方法:选择了 CLIP(ViT-base),它是一个 2D 基础模型。此外,还包括了 R3M 和 VC1,这两者都是 2D 机器人预训练方法。
2)3D 机器人表示方法:借鉴了 [95],采用了基础的 3D 模型,包括 PointNet、PointNet++ 和 PointNext。此外,还检验了 SPA ,这是之前的 SOTA 3D 机器人预训练方法。与 [52] 相同,所有机器人表示方法均使用与 Lift3D 相同的三层策略头和训练损失。
3)3D 策略方法:Lift3D 与之前的 SOTA 3D 扩散策略(DP3)在 MetaWorld 和 Adroit 上进行了比较,并在 RLBench 上与 RVT-2 进行了比较。
4.3 定量实验
如下表所示,Lift3D (CLIP) 在 MetaWorld 基准测试中达到了 83.9 的平均成功率,其中中等任务的准确率为 78.8,困难任务的准确率为 82.0。Lift3D 比 SOTA 2D 方法提高了 8.8 的平均成功率,比 SOTA 3D 方法上提高了 14.4。此外,Lift3D 在灵巧手操作任务上也优于以前的机器人表示和策略方法。需要注意的是,灵巧手在不同任务中有不同的自由度,其中 hammer, door, pen 任务分别具有 26、28 和 24 个自由度。这些结果表明,我们的方法在更复杂的灵巧手操作任务中同样有效,得益于强大的 3D 机器人表示能力。Lift3D (DINOV2) 也展示了良好的结果,证明了该方法在其他 2D 基础模型中的可行性。
5. 真机实验
5.1 数据收集
在真机实验设置中,我们使用 Franka Research 3 机械臂,并通过 Intel RealSense L515 RGBD 相机捕捉静态前视图。实验包括 10 种任务:1)将瓶子放到架子上,2) 倒水,3) 拔掉充电器,4) 堆积积木,5) 捡起并放置物体,6) 滑动积木,7) 浇水,8) 擦桌子,9) 打开抽屉,10) 关上抽屉。对于每个任务,我们在不同的空间位置收集了 40 次演示,轨迹以 30 fps 进行记录。我们选择了 30 次实验并提取了关键帧,用以构建每个任务的训练集。
5.2 定量实验
如下图和下表所示,我们将 Lift3D (CLIP) 与 DP3、VC-1 和 PointNet 进行比较。结果表明,Lift3D 在多个任务中表现一致且良好。特别是在 “将瓶子放到架子上” 任务中,该任务要求精确的 3D 位置和旋转预测,Lift3D 达到了 90 的成功率。结果表明,Lift3D 能够有效理解 3D 空间场景,并在现实世界中做出准确的位姿预测。对于复杂任务 “擦桌子”,由于需要操纵可变形的物体,所有方法在精度上都面临限制。尽管如此,Lift3D 仍然达到了 40 的成功率。
5.3 定性实验
如下图所示,展示了六个真实世界任务的操作过程。本文的方法准确预测了连续的 7 自由度末端执行器姿态,使得任务得以沿着轨迹顺利完成。例如,在 “给植物浇水” 任务中,Lift3D 首先准确抓住了浇水壶的手柄。接着,它平稳地抬起壶并将其定位到植物上方。最后,夹持器逐渐旋转以控制 “水流”。
6. 泛化性实验
借助于 2D 基础模型的大规模预训练知识和全面的 3D 机器人表示,Lift3D 展现出现实世界泛化能力。如下表所示,我们设计了三种与训练场景不同的现实世界测试场景,以验证其泛化性能。
6.1 不同的操纵实例
Lift3D 在多种不同的操纵物体上表现出色,准确度损失最小。这一成功主要得益于预训练的 2D 基础模型在语义理解方面的强大能力。
6.2 复杂的背景场景
背景干扰显著降低了所有方法的准确度,但 Lift3D 的准确度下降最小,操纵成功率保持在 50% 以上。这得益于在 3D 空间中有效利用大规模预训练知识。此外,基于可操作性的掩膜策略通过重建强化了模型对前景区域空间几何的理解,最大限度地减少了背景干扰的影响。
6.3 不同的光照条件
光照变化不仅会影响 2D 图像的数据分布,还会影响深度捕捉,从而影响点云数据。在光照变化的影响下,Lift3D 仅表现出约 20% 的准确度下降,充分展示了其强大的 3D 机器人表示能力。
7. 可扩展性(Scalability)探究
在计算机视觉中,2D 基础模型通常随着参数规模的增加,能够提升下游任务的表现。基于此,我们研究了我们提出的 Lift3D 策略是否也具有可扩展性。我们在非常困难的 MetaWorld 仿真任务 “shelf-place” 上进行了实验。在这个复杂任务中,Lift3D(DINOV2-ViT-base)仅达到 28 的准确率。ViT-base 的参数量只有 86M,而 ViT-large 和 ViT-giant 的参数量分别为 304M 和 1B。通过将 2D 基础模型替换为 DINOV2-ViT-large 和 DINOV2-ViT-giant,Lift3D 在 “shelf-place” 任务上的准确率分别提高到 60 和 68,并且收敛速度更快。这些改进表明,Lift3D 策略模型具有良好的可扩展性,且随着更大规模的 2D 基础模型,Lift3D 框架能够生成更鲁棒的操作策略。
#Drivingdojo
18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了
世界模型被广泛认为是实现通用人工智能的关键技术,其核心能力在于模拟真实世界的动态变化,并为决策提供精准的未来状态预测。在自动驾驶领域,世界模型的应用尤为引人注目。然而,现有数据集在视频多样性和行为复杂性方面的不足,限制了世界模型潜力的全面发挥。为了解决这一瓶颈,中国科学院自动化研究所联合美团无人车团队推出了 DrivingDojo 数据集 —— 全球规模最大、专为自动驾驶世界模型研究设计的高质量视频数据集。该数据集已被 NeurIPS 2024 的 Dataset Track 接收。
网站:https://drivingdojo.github.io/
论文:https://arxiv.org/pdf/2410.10738
代码:https://github.com/Robertwyq/Drivingdojo
世界模型的核心在于交互、知识以及泛化
世界模型刻画了智能体在当前状态
下采取特定动作
之后环境状态所有可能的变化的分布
。相比于单纯关注于
生成的图像质量,我们认为其他道路参与者的行为(other agents behavior)以及整体的世界动态(general world dynamics)也同样值得关注,即世界模型的交互、知识以及泛化能力。
交互:世界模型应具备合理预测动态交互行为的能力。例如,在自动驾驶场景中,系统需要准确预测自车与行人或其他道路使用者之间的交互。除了理解静态环境的变化,更重要的是能够提供动态反馈,以支持系统在复杂场景中的应对。
知识:世界模型应具备对环境中世界知识的深刻理解。例如,在自动驾驶场景中,系统需要能够理解红绿灯、升降杆等关键场景元素,以便作出恰当的驾驶决策。然而,仅通过像素级重建是否能准确建模这些知识仍然存在疑问,因此引入语言模型成为提升系统理解能力的关键手段。
泛化:世界模型的预测能力应能够扩展到新的未知场景,尤其是各种长尾场景,如稀有事件或极端环境下的驾驶表现。这种泛化能力是确保模型在真实世界中稳定运行的关键。
DrivingDojo 数据集
DrivingDojo 数据集相较于传统的感知数据集,经过精心的挖掘与筛选,更加注重视频多样性的设计。从掉落的水桶、倒下的栅栏,到突然窜出的动物、夜晚的篝火、路上的羊群,包含了海量的长尾驾驶场景,为世界模型的研究提供了坚实的基础。
DrivingDojo 数据集包含大约 18k 个视频,平均时长约为 20 秒。整个数据集可以划分为三个子集,分别聚焦于驾驶行为、动态交互和世界知识的探索。
驾驶行为:还原真实驾驶操作的多样性
我们精心构建了一个名为 DrivingDojo-Action 的子集,全面覆盖驾驶操作的多样化场景,呈现纵向与横向行为的均衡分布:
- 纵向操作:包含加速、减速、紧急刹车和起停驾驶,精准展现车辆在速度调控中的动态表现。
- 横向操作:涵盖变道和车道保持,细致描绘车辆在空间选择和路径优化中的决策能力。
动态交互:捕捉复杂交通中的行为模式
除了在静态道路网络环境中进行导航外,建模多智能体之间的动态交互(如并入和让行)也是世界模型的一个关键任务。我们精心挖掘了这一子集,比如并线、会车、被阻挡、超车、被超车。这一子集为世界模型提供了丰富的交互场景,助力其更好地应对复杂的交通环境。
世界知识:赋能开放世界的智能理解
不同于感知和预测模型通过将高维传感器输入压缩为低维向量表示,世界模型在像素空间中运行,展现出更强的场景建模能力。这种增强的能力使得世界模型能够有效捕捉开放世界驾驶场景中的复杂动态,例如动物突然横穿马路或货物从车辆后备厢掉落等意外情况。通过在像素层面上的深度理解,世界模型为处理复杂交通情境提供了更可靠的基础。
推动智能交互与知识驱动的自动驾驶世界模型
真实多样的驾驶场景生成
,时长00:28
轨迹控制的视频生成
给定初始帧和轨迹,世界模型预测未来的情景
,时长00:24
预测不同的未来情景
我们提出了运动指令跟随的视频预测任务,这也是世界模型的核心。以往的研究主要依赖于定性观察,而在实际驾驶中,控制精度需要通过定量指标进行评估。由于生成视频中缺少真实轨迹,我们采用了 COLMAP 重建方法对生成的轨迹进行重建,从而实现粗略的定量评测。
,时长00:02
,时长00:02
利用 COLMAP 估计生成视频的轨迹
生成能力的泛化
与以往在同一数据集上进行的生成测试相比,我们认为跨数据集的测试更为重要,这更好地体现了模型的泛化生成能力。在测试过程中,我们选择了 OpenDV 的子集来进行评估。
我们也期望模型具备良好的泛化能力:如运动行为的泛化,以及跨数据集的运动行为泛化。
1. 异常行为生成 2. 在 nuScenes 数据集实现倒车
交互行为的预测
这一部分的核心在于探索世界模型是否能够根据不同行为的输入预测智能体之间的交互动态。以下示例中,当自车选择停车时,模型预测右前方的车辆会抢占道路进行超车;而当自车选择继续前行时,模型则预测右前方的车辆会等待自车先通过。
长时间高质量驾驶视频生成
#大模型微调项目
总结了一些热门的大模微调项目的亮点以及数据集。
本文主要总结本人最近跑过的大模型微调项目。
相信大家这几个月都会不断新出的微调大模型项目刷屏,频率基本每天都有高星的项目诞生,部分还宣称自己达到GPT的百分之多少,一方面弄得大家过度乐观,一方面弄得大家焦虑浮躁。
面对这种情况,我的建议是「多动手」。把这些项目 clone 下来,跑跑代码,把项目用到的数据集下载下来做做EDA,把项目训练完的checkpoint下载下来,用自己的例子跑跑。多接触反而心态平定了许多。
回归正题,这篇博文聊聊一些热门的大模型微调项目。首先我觉得大量这些项目的诞生是源于以下三个节点:
- 节点1 ChatGPT:由于 ChatGPT 惊人的效果,让大家意识到AGI的可能性,并重视起了大模型+开放指令微调+强化学习这种三阶段范式
- 节点2 LLaMA:LLaMA 是 Meta 在今年2月份推出的基座模型,宣称 LLaMA-13B 在大多数基准测试中超过了 GPT-3 (175B),而 LLaMA-65B 与最好的模型 Chinchilla70B 和 PaLM-540B 相比非常有竞争力。此外,该项目还开源了7B、13B、30B和65B版本。
- 节点3 Stanford Alpaca:在 LLaMA 的基础上,用 Self-Instruct 去制造了52K的指令微调数据集,最后发现训练出来的模型确实是能听懂指令的,能看出ChatGPT的雏形
这三个节点加起来相当于证明了一条可以低成本复现的道路,然后大量的人沿着这条道路去进行时间。
再来说说这些项目的,本质都是:底座模型(ChatGLM/LLaMA/BLOOM)+ 微调数据(主要是指令微调数据集) + 高效微调方案(Fulltuning/Lora/Freeze/Ptuning)。
项目
这些介绍几个我认为比较好的,好的定义是:Github star 比较高的,持续在维护更新的,同时作者对自己的项目做了详细解析和深入研究的。
ChatGLM-6B
清华唐杰老师团队
项目: https://github.com/THUDM/ChatGLM-6B
Blog: https://chatglm.cn/blog
ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于GLM架构,具有62亿参数。ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约1T个标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持。为了方便下游开发者针对自己的应用场景定制模型,项目还开源了基于 P-Tuning v2(https://github.com/THUDM/P-tuning-v2) 的高效参数微调代码。
亮点:
- GLM 是一种 Prefix decoder 的结构,而目前大模型采用的主流结构是 Casual decoder,可以说GLM走出了自己的道路,但究竟那种结构更优,需要更科学的评定
- 1T 个token的中英文预训练,对比 175B 的 GPT3 训练了300B个 token,540B的 PaLM 训练了780B个 token,而 ChatGLM-6B 的底座只是6B的模型,却训练了1T个 token,让人有种憧憬,用大数据训练小模型,是否能达到小数据训练大模型的效果
- 项目号称经过监督微调、反馈自助、人类反馈强化学习
但是 ChatGLM-6B 没有公布它的训练细节和语料是怎么做的,有人说 ChatGLM-6B 的 IFT 也是通过 self-Instruct 得到的,这也不是空穴来风,相信用过 ChatGLM-6B 的人都会觉得,ChatGLM-6B的回复风格跟ChatGPT十分相似。
Alpaca-CoT
中科院的学生做的项目
项目:https://github.com/PhoebusSi/Alpaca-CoT/blob/main/CN_README.md
多接口统一的大模型指令微调平台。该项目做了一个框架,利用这个框架,可以方便地用不同的底座模型+不同的指令数据集进行大模型的微调,不足的地方是,只提供了使用Lora的训练方式。除此之外,该项目主打一个思维链 (CoT),把CoT数据集加入到指令微调中,在项目中还举了很多案例,证明加入了CoT数据集后对模型的提升作用。
亮点:
- 统一了多个底座模型,包括有 LLaMA、ChatGLM、BLOOM
- 整理统一了其他公开项目的数据集,如果大家想梳理下现在市面上开源的IFT数据集,建议可以通过这个项目了解
- 项目集成了 Int8-bitsandbytes、Fp16-mixed precision、LoRA(hugging peft库)等高效训练的方法
- 首个加入了 CoT 训练后的效果研究
BELLE
贝壳团队开源的项目
项目:https://github.com/LianjiaTech/BELLE
项目基于 Deepspeed-Chat 项目,包括全量参数微调(fine-tuning)和基于LoRA的参数高效微调。
亮点:
- 开源了一个规模巨大的中文IFT数据集,现在加起来有300万以上,基本都是通过Self-Instructi得到
- 做了一系列的实验,截止日前已发了4篇技术报告
- 《Exploring ChatGPT's Ability to Rank Content: A Preliminary Study on Consistency with Human Preferences》
- 《Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases》
- 《Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation》
- 《A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model》
建议大家把它们的数据集下载下来看看,并把这4篇实验报告都看一次。虽然这些实验并不是很客观,例如最后的test集也是用的belle自己的,然后用的是GPT3.5打分。不过整体的实验思路和实验结果还是可以大致参考的。
Chinese-LLaMA-Alpaca
科大讯飞&哈工大团队,很出名的团队,很多耳熟能详的中文预训练模型,如RoBERTa、MacBERT、PERT都出自它们团队
项目:https://github.com/ymcui/Chinese-LLaMA-Alpaca
该项目包括词表扩充、继续预训练和指令精调三部分,其中词表扩充的代码参见 merge_tokenizers.py ;预训练和指令精调代码参考了 transformers中的 run_clm.py 和 Stanford Alpaca 项目中数据集处理的相关部分。
亮点:
- 相对完整的流程,不紧紧是指令微调这一步,还包括词表扩充、继续预训练
- 针对LLaMA模型扩充了中文词表,提升了中文编解码效率。这一步是我觉得假如想用LLaMA去做中文必须要做的一个事情,因为原生LLaMA对中文支持不好,很多中文词不在它们的词表中,会被切成两个token,极大影响了效果
- 对中文继续做了20G语料的预训练,这个预料规模一看就很熟,它们开源的RoBERTa、MacBERT也是在这个规模的预料上训练得到的
- 在预训练介绍,分成两部分,第一阶段:冻结transformer参数,仅训练embedding,在尽量不干扰原模型的情况下适配新增的中文词向量,第二阶段:使用LoRA技术,为模型添加LoRA权重(adapter),训练embedding的同时也更新LoRA参数。这给大家做高效继续预训练的提供了一个方向。
StackLLaMA
项目:https://huggingface.co/spaces/trl-lib/stack-llama
Blog: https://huggingface.co/blog/stackllama
Hugging Face的研究人员发布的一个70亿参数的模型——StackLLaMA。这是一个通过人类反馈强化学习在LLaMA-7B微调而来的模型。
个人感觉有价值的是Hugging Face研究人员发布的一篇Blog:用RLHF训练LLaMA的实践指南。
亮点:
- 博客更像是一个教程和指南,介绍如何使用RLHF来训练模型,而不是主要关注模型的性能表现
- 重点介绍了指令微调和强化学习部分,其中强化学习部分利用的是StackOverflow构建的数据集,利用网民们的upvotes去进行评分,给我们构造强化学习数据集部分提供了一个思路,能否利用微博点赞、知乎点赞等数据去构造一个中文的强化学习数据集呢?
数据集
介绍几个比较有特色的中文数据集
Alpaca-CoT
对大部份中英文的开源IFT数据集进行了整理和汇总,包括有 Guanaco、belle、firefly、COIG,加上项目自己开源的CoT数据集。假如不想自己去疏离数据集的话,就看这个它们整理好的就行了。
Alpaca_GPT4
https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
微软论文《INSTRUCTION TUNING WITH GPT-4》开源的数据集。亮点是利用 GPT-4 生成的 Alpaca 数据,并做了中文的翻译。由于GPT4比GPT3.5强大很多的,因此质量自然会更高。
belle_data
https://github.com/LianjiaTech/BELLE/tree/main/data/10M
规模很大、类型也较多的数据集
- School Math:包含约25万条中文数学题数据,包含解题过程。
- Multiturn Chat:包含约80万条用户与助手的多轮对话。
- Generated Chat:包含约40万条给定角色的多轮对话。
- train_2M_CN:包含约200万条与Alpaca类似生成的多样化指令任务数据。
这些数据都是由ChatGPT生成,部分质量是不过关的,需要自己好好筛选一下。
COIG
https://huggingface.co/datasets/BAAI/COIG
规模很大,类型很全的数据集
- 翻译指令数据集:基于开源数据集精选得到,并通过DeepL高质量翻译、并进行人工验证+人工修正
- 考试指令数据集:中国高考、中考、公务员考试得到,可用作思维链 (CoT) 语料库
- 价值对齐数据集:「中文世界的价值观念不同于英语世界的价值观」,作者构建了与普世华人价值观match的数据集,也是通过 self-instruct 生成的
- 反事实校正数据集:构建了反事实校正多轮聊天数据集(CCMC)。CCMC 数据集包括学生和老师之间的 5 轮角色扮演聊天,以及他们所参考的相应知识。教师根据基本事实知识生成响应,并在每一轮中纠正学生问题或陈述中的事实错误或不一致之处
- 代码指令数据集:Leetcode 数据集,包含有代码到文本和文本到代码
总体来说,这份数据集质量非常高,需要我们好好根据任务进行挑选。
个人感悟
数据清洗方案如何更好?
- 多样性:例如在 Self-Instruct 论文中,会使用 ROUGE 指标,过滤掉生成的指令与已有指令重合的指令。
- 高质量:使用 ChatGPT 生成数据,自然训练出来的模型就是模仿 ChatGPT 的回复风格。然而,ChatGPT(指 GPT3.5)自身的缺点包括浓浓的机翻味道、文绉绉的、不够活泼可爱,其次中文生成不够流畅。一种思路是使用 PPL 等指标筛选出生成的指令和回复,计算困惑度 Perplexity。Perplexity 低的通常是不流畅的,可以将低于一定阈值的去掉。
- 启发式:例如过滤掉问题是中文但回答是英文的,过滤掉生成的指令包含需要外部知识库的情况。
更多的清洗方案,可以多看看开源数据集中它们是如何处理的,留意里面的数据清洗方式。
哪种微调方案比较好?
从 BELLE 的技术报告《A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model》中可以看出,Full-Tuning 效果应该是最好的,但 Full-Tuning 需要机器资源多,训练时间长。其次是 P-TuningV2/Lora/Freezing 的话,貌似是 P-TuningV2 效果最佳,具体可以看这个https://github.com/liucongg/ChatGLM-Finetuning。然而,这些比较并不严谨,例如每个方案都有自己的超参,是否每个方法都做了超参搜索。
强化学习部分重要吗?
非常重要。现在发现 ChatGLM-6B 的回复虽然一看过去感觉像模像样,但仔细看会发现胡言乱语的情况很严重,也即幻觉问题。也有人会另辟蹊径,例如 COIG 中的 CCMC 数据集,通过将这些数据集加入到 IFT 训练中,让模型学习纠正不正确回复的能力。还有在 prompt 中加入“请不要生成虚假的、自我捏造的回复”等字眼,目的是让模型在生成更加谨慎。然而,这些都是折中的办法。个人认为减少幻觉问题这一步,还得靠强化学习。希望未来能看到更多构建强化学习数据和开源强化学习数据集、训练的方案。
#OpenAI Sora正式炸裂登场
山姆・奥特曼:「视频版的 GPT-1 时刻来了。」
OpenAI 12 天连更的第三个工作日,重磅发布终于来了!
正如直播之前大家在评论区预想的一样,视频生成大模型 Sora 正式版终于露面!
算起来,距离今年 2 月 16 日 Sora 的发布已经过去了近 10 个月的时间。
如今,广大网友终于可以体验 Sora 强大的视频生成能力!
同时,OpenAI 开发了 Sora 的新版本 ——Sora Turbo,它比二月份的预览版模型快得多。今天该版本将作为独立产品提供给 ChatGPT Plus 和 Pro 用户。
据今天的直播介绍,Sora 用户可以生成 1080p 分辨率、最长 20 秒、宽屏、竖屏或方形的视频。并且用户可以利用资源进行扩展、remix 和融合,或者基于文本生成全新的内容。OpenAI 开发了全新的界面,让使用文本、图像和视频来提示 Sora 变得更加容易,同时故事板工具让用户可以精准地指定每个帧的输入。
我们可以先看几个生成视频示例:
,时长00:10
,时长00:05
提示:镜头雾气弥漫,色彩对比鲜明,捕捉到的感觉是低能见度的镜头质量,提供一种即时感和混乱感。该场景从 17 世纪海盗船上水手的视角展示了摇晃的镜头。海浪冲击木制船体时,地平线剧烈摇晃,难以辨别细节。突然,一只巨大的海怪从汹涌的大海中突然出现。它巨大而滑溜的触手危险地伸出,黏糊糊的附肢以可怕的力量缠绕着船。当水手们慌乱地争先恐后地面对这个可怕的海洋生物时,视野发生了剧烈变化。气氛非常紧张,混乱中可以听到船的呻吟声和大海的咆哮声。
,时长00:10
提示:洛克菲勒中心到处都是金毛猎犬!无论你放眼望去,都是金毛猎犬。这是纽约夜间的冬季仙境,还有一棵巨大的圣诞树。背景中可以看到出租车和其他纽约元素
山姆・奥特曼表示,最令他兴奋的一点是与其他人共同创作的便捷性,感觉就像是一个有趣的新事物。大家可以将 Sora 看作视频版的 GPT-1。
OpenAI 研究科学家 Noam Brown 表示,Sora 是 scale 力量最直观的展示。
对于 Sora 的发布,有网友表示,这是最好的圣诞节礼物,也有称 Sora 将是游戏改变者。
通过文字、图片或视频
让你的想象力栩栩如生
怀着激动的心情,也想上手尝鲜 Sora!奈何想要体验的网友太多,一直登录不上:
体验地址:https://sora.com/onboarding
那就先为读者们展示下官方放出的 Sora 的能力吧。
使用 Remix 替换、删除或重新构想视频中的元素
打开通往图书馆的大门
将门替换为法式门
门外的场景替换为月球景观
Re-cut:找到并隔离最佳帧,然后向任一方向延伸它们以完成场景
,时长00:15
Storyboard:在时间线上组织和编辑视频的独特序列
视频前 114 帧的场景是「一片广阔的红色景观,远处停靠着一艘宇宙飞船。」
接着,可以将视频的 114-324 帧的场景变换为:「从宇宙飞船内部向外看,一位太空牛仔站在画面的中央。」
最后,可以将视频内容描述为「宇航员眼睛的特写镜头,眼睛被针织面料制成的面罩所框住。」
Loop:使用 Loop 剪辑并创建无缝重复的视频
,时长00:20
,时长00:12
Blend:将两个视频合并为一个无缝剪辑
,时长00:10
Style presets:使用「Presets」创建和分享激发自己想象力的风格
,时长00:10
更多 Sora 生成的惊艳视频,也需要广大网友们的想象力去创造了。
Sora 正式版系统卡
在今年 2 月份,Sora 刚发布时,OpenAI 曾公布了 Sora 的技术报告(参阅:我在模拟世界!OpenAI 刚刚公布 Sora 技术细节:是数据驱动物理引擎)。
OpenAI 认为,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。
今天随着 Sora 的正式发布,OpenAI 也放出了 Sora 的系统卡(System Card),感兴趣的开发者们可以深挖一下技术细节。
地址:https://openai.com/index/sora-system-card/
Sora 是 OpenAI 的视频生成模型,旨在获取文本、图像和视频输入并生成新视频作为输出。用户可以创建各种格式的高达 1080p 分辨率(最长 20 秒)的视频。
Sora 建立在 DALL・E 和 GPT 模型的基础上,旨在为人们提供创意表达的工具。
Sora 是一种扩散模型,它从看起来像静态噪声的基本视频开始生成新视频,通过多个步骤消除噪声来逐渐对其进行转换。通过一次为模型提供多帧预测,Sora 解决了一个具有挑战性的问题,即确保画面主体即使暂时离开视野也能保持不变。与 GPT 模型类似,Sora 使用 transformer 架构,释放出卓越的扩展性能。
Sora 使用 DALL・E 3 中的重描述(recaptioning)技术,该技术涉及为视觉训练数据生成高度描述性的字幕(captions)。因此,Sora 能够更忠实地遵循生成视频中用户的文本指令。
除了能够仅根据文本指令生成视频之外,该模型还能够获取现有的静态图像并从中生成视频,准确地将图像内容动画化并关注细节。该模型还可以获取现有视频并对其进行扩展或填充缺失帧。Sora 是能够理解和模拟现实世界的模型的基础,OpenAI 认为 Sora 将成为通往 AGI 的重要里程碑。
在数据方面,正如 OpenAI 在 2 月的技术报告中所述,Sora 从大型语言模型中汲取灵感,这些模型通过互联网规模数据的训练来获得通才能力。LLM 得以确立新范式,部分得益于创新了 token 使用的方法。研究人员们巧妙地将文本的多种模态 —— 代码、数学和各种自然语言统一了起来。
在 Sora 中,OpenAI 考虑了生成视觉数据的模型如何继承这种方法的好处。大型语言模型有文本 token,而 Sora 有视觉 patch。此前的研究已经证明 patch 是视觉数据模型的有效表征。OpenAI 发现 patch 是训练生成各种类型视频和图像的模型的可扩展且有效的表征。
在更高层面上,OpenAI 首先将视频压缩到较低维的潜在空间,然后将表征分解为时空 patch,从而将视频转换为 patch。
Sora 接受过各种数据集的训练,包括公开数据、通过合作伙伴获取的专有数据以及内部开发自定义数据集:
- 公开可用的数据。这些数据主要从行业标准的机器学习数据集和网络爬虫中收集。
- 来自数据合作伙伴的专有数据。OpenAI 建立合作伙伴关系来获取非公开数据。例如,与 Shutterstock Pond5 合作构建、提供人工智能生成的图像。OpenAI 还委托创建适合自己需求的数据集。
- 人工数据。来自人工智能训练师、红队队员和员工的反馈。
更多细节,读者们可以查看系统卡介绍。
价格权益
当然,随着 Sora 的正式发布,OpenAI 也公布了使用价格。看来,也并不便宜:
20 美元一个月的 ChatGPT Plus 用户可以享受的视频生成权益包括:
- 最多 50 个优先视频(1000 个积分)
- 分辨率高达 720p,时长为 5 秒
200 美元一个月的 ChatGPT Pro 用户可以享受的视频生成权益包括:
- 最多 500 个优先视频(10000 个积分)
- 无限 relaxed 视频
- 分辨率高达 1080p,持续时间为 20 秒,可并发生成 5 个
- 下载无水印
毕竟期待了这么久。你们冲不冲?
参考链接:https://openai.com/sora/
#不做Sora ,要帮更多企业做出Sora
大模型「标王」硬气
被神话的 Sora ,被低估的多模态。
Sora 终于来了!
只要是 ChatGPT Plus/Pro 用户,直接就能用上。
至于效果 ......
看完官方放出的 demo,网友大呼:不太行 !
当人们对「超级应用」的热情被 Sora 浇上一盆凉水时,多模态应用已经悄咪咪跑了起来,速度超出想象。
日均调用量 15 亿,
谁在给生产「上价值」 ?
一句话、30 秒,创意立刻「活了」 。
Vidu 文生视频
一句话,召唤出 3D 世界。
哇嘶嗒(VAST)文生3D模型
一个创意、一键生成,短短五分钟,一段品牌宣传片便能完美呈现。手机,也能来个「即圈即搜」 。
贵阳市民早高峰拥堵时长缩短了半小时,大模型功不可没。
在百胜中国,AI 客服每天能处理超过 15 万次消费者沟通。
龙源电力的 5 万路视频监控,现在只需一句话就能过滤掉无关的烟雾、灯光等干扰误报。
这些都不是简单的技术 demo ,而是百度智能云在给实际生产「上价值」 的真实写照。
IDC 数据也印证了这一点。2023 年,百度智能云至少拿了两个第一:
在 AI 公有云市场份额达到了 26.4 %,已连续五年位居首位;
大模型又是 AI 公有云的细分领域,作为国内率先抢跑大模型的云厂商,2023 年百度智能云在大模型平台市场份额为 19.9%,也位居第一。
可见,大模型正成为百度智能云一年多来新的增长引擎。
百度创始人李彦宏曾在百度世界 2024 大会上透露,截至 11 月初,百度文心大模型的日均调用量达到 15 亿,相较一年前首次披露的 5000 万次,增长了约 30 倍。
调用量高、增速快,表明有越来越多的应用在使用大模型。「调用背后意味着它在给应用产生价值。」 李彦宏说。
「标王」 的底气
「 Sora 这种,无论多火,百度都不去做。」 公开场合谈及此,李彦宏态度明确。
百度要做的是基建,帮更多用户做出自己的 Sora ,打造无数个「超级有用」 的多模态应用。
市场也用真金白银投了票。据媒体报道,市场大盘上,2024 年 1-8 月大模型中标项目数量已是 2023 年全年的 5 倍,百度综合排名第一:
除了中标金额、项目数量最多,行业覆盖也最广,央国企客户过半。
作为「标王」,不做 Sora 并不意味着放弃多模态。很多场景应用,如果没有多模态技术支持,根本落不了地。
但企业要的不是裸的模型,而是贴合自家业务场景的多模态能力,能「开箱即用」就更好了。
身为 「标王」 ,百度智能云也有底气给足各种选项。凭啥?
它控制了从底层算力到上层应用的堆栈每一层,在堆栈每一层都有关键自研技术。
在此,离不开两个核心支点:作为大模型精调和应用开发平台的千帆,以及提供稳定高效算力服务的百舸平台。
先看百舸。
想从 0 到 1 训练自己的多模态大模型?
百舸:安排!
一些前沿的空间智能玩家已经盖戳认证,如生数科技、哇嘶嗒( VAST )、光魔科技。
光魔科技,一键将故事生成视频。
这个以 GPU 为核心搭建的异构计算平台,本来就很适合多模态大模型训练,主打一个「多快稳省」 。
「多」 ,是指 「多芯混训」 ,支持同一智算集群中混合使用不同厂商芯片,兼容昆仑芯、昇腾、海光 DCU、英伟达、英特尔等国内外主流 AI 芯片。
选择灵活,也降低了算力成本,还不用担心性能显著下降。因为,百舸的多芯混合训练任务的性能损失,控制在了万卡性能损失 5%,已经是业界最高水平。
除了「多」,训练、推理也又「快」又「稳」。
从发布到上线仅三个月,生数科技就完成了对 Vidu 的快速迭代。为啥这么快?
因为百舸会把不同地点、不同规模、不同集群的算力统一管理起来,再通过一些优化经验和技术,大大提升智能算力的效能:
万卡集群上的模型有效训练时长占比超过 99.5%,线性加速比和带宽有效性均超过了 95% ,业界领先。
说地更具体点。
训练 Vidu 大模型需要长序列训练和较大的上下文窗口,百舸创新提供了序列并行策略、显存优化策略,还支持超长上下文训练。
作为结果,大模型训练中最费时间的渲染环节,效率提升了 3 倍。同时,通过优化数据拉取机制,显著压缩了数据准备时间。
在推理上,百舸也有三个亮点。
提供自定义镜像推理服务,用户可以「搭乐高」 ,满足不同推理服务部署。
异构多芯支持架构,既保证性能又控制成本。
多模态推理加速能力。这也是 Vidu 将 AI 视频生成等待时间压缩至 30 秒,比业内最快水平 Gen-3 还要快一倍的「幕后功臣」 。
值得一提的是,大模型 Scaling Law 仍在继续,百舸 4.0 也具备了成熟的 10 万卡集群部署和管理能力。
再说千帆。
主打一个「低门槛」甚至「零门槛」 ,最好普通人都能用。至今,已经促成超 77 万应用的诞生。
凭借「三层分立」:模型开发层、模型服务层和应用开发层,满足千变万化现实需求。
在模型开发层,千帆提供全流程工具,从数据处理、模型调优到部署,满足多模态大模型定制化需求。
想直接调用多模态能力的用户,可以在模型服务层「各取所需」。多个领域主流模型,千帆都给安排了。
文生图:如 Stable-Diffusion-XL 、文心一格;
文生视频:如 Vidu 1.0 ;
图像理解:如 Fuyu-8B、LLaVA ;
除了多模态系列模型,还有百度视觉系列模型。
虽然百度 ERNIE 系列大语言模型和语音系列模型主要针对单一模态,但也可以通过组合使用来增强整体的多模态处理能力。
在扩大模型类型的同时,千帆也在降低模型调用成本。
过去一年,文心旗舰大模型降价幅度超过 90%,两款主力大模型 ERNIE Speed 和 ERNIE Lite 免费,最大限度降低企业创新试错的成本。
最上一层是应用开发,帮助企业用多模态能力改造业务,这个办法最简单、直接。
最近上新了企业级 RAG 和企业级 Agent 开发,将多模态应用门槛又拉低了一截。
就拿工作流 Agent 来说。
在现有工具链支持下,只需一、两句话+勾选、拖拽,大模型就能跑出一个简单、闭环的轻量化 Agent,如熟知业务「套路」的数字员工。
爱库存是一家私域电商供货平台,数百万店主通过微信群、朋友圈分发平台上的商品。他们正在千帆大模型平台开发「爱库存超级助手」Agent。
此前,店主遇到销量下滑需要经历繁琐流程:查看数据找原因,浏览热卖榜选品类,比价选品,再制作文案和海报。这一系列操作通常要花费数小时。
现在有了 Agent,这些工作只需几分钟就能完成。
「开箱即用」 ,支棱千行百业
对于千行百业中呈长尾分布、「拿来主义」就能搞定的需求来说,百度智能云打造的一批 AI 原生应用,会很趁手。
「客悦」 、「曦灵」 、「甄知」、「一见」 等都实现了多模态的「开箱即用」 。
营销、客服,几乎是所有企业舍得砸钱、也最容易积累数据与 AI 产生化反的通用场景。有了「客悦」、「曦灵」,数字人销售、直播带货,分分钟搞定。
某日化龙头企业用客悦 AI 外呼回访老客户,不仅摸清了客户流失原因,还通过精准派券带动复购,最终复购率提升超 10% 。
曦灵数字人平台拥有文生 3D 数字人的能力,不但可以一句话生成企业所需 3D 数字人形象,还可以让它立即投入工作,自动生成专业的带货视频。
,时长00:22
曦灵数字人平台,一句话生成3D数字人带货视频。
有了多模态能力的加持,数字人主播可以一边展示货品一边讲解,还能和直播间用户实时互动,全年无休,多国语言也能张嘴就来。
价格上,仅需 199 元!一个 3D 超写实的数字人,过去定价可是万元级别。
企业知识管理也迎来多模态升级。「甄知」让知识管理从「重存储」转向「重应用」,企业知识被盘活。
以南方电网为例,集团拥有数万篇各类标准文件,都以 PDF 形式存储。「甄知」运用大模型的 OCR 视觉能力,快速将这些文档拆解为章节段落和图表,完成知识结构化。
员工能在「甄知」辅助下编写各种企业文档,新产生的知识会自动进入企业知识库,精准推给需要的同事。
基于多模态大模型重构的「一见」 视觉大模型,可快速满足碎片化场景下的视觉需求。矿区驾驶员的「一分钟安全确认」,从传统小模型需要 50 多天,缩短到现在仅需 2 天左右就能投产使用。
「开箱即用」的 AI 原生应用也延伸到了医疗、政务、交通等更多领域,加速多模态应用在千行百业落地。
砥砺多年,真·「卷王」
一旦技术得到广泛应用,就会产生海量数据,这些数据又反哺 AI 进化,推动数据飞轮高速运转。不同于 Sora,这是百度认准的一条通往 AGI 之路。
「我们应该把注意力放在闭环怎么走完,而不是不断解锁能力。」李彦宏认为,一旦有一家(大模型)厂商的「飞轮」 转起来,后来者再追赶,需要花更多力气。
事实上,百度智能云能成为今天的「标王」 、领跑者,除了技术上的领先,也源于多年坚守「向实」 。
当一些互联网云厂商淡出政企市场时,百度智能云还在电信、能源、制造、交通等重点领域深耕,静待花开。这些年的项目经验,让百度智能云沉淀了大量 AI 解决方案,通过持续提炼,不断提升复用率和产品化水平。
正是沉淀在先,后来有了多模态大模型,才能「点石成金」 。
没有「专业选手」 ,用户也能基于「一见」 视觉大模型平台训练出和百度原厂效果一样的视觉模型,因为「一见」 凝结了七年的行业实践,积累了丰富的模型、算子和场景化模型产线。
龙源电力平台已成功接入 5 万多路视频监控,覆盖 250 多个风电场,实现了实时 AI 分析与统一管控。「一见」 在海量并发处理和数据管理方面的成熟能力也是通过大量标杆客户实践打磨出来的。
多模态生成式 AI 作为新一代前沿技术,正在突破大语言模型的固有局限。Omdia 最新发布的《全球生成式 AI 应用市场研究报告》预测,全球多模态生成式 AI 市场规模将于 2029 年达到 142 亿美元,较 2024 年增长 6 倍。
凭借技术实力和丰富的工程经验,百度智能云已在企业级市场建立起坚实根基。稳定的付费客户群不仅让其在价格竞争中保持优势,更为长远发展奠定了基础。
Omdia 也在报告中指出,企业在选择多模态应用解决方案时,百度智能云这类全栈服务供应商比单纯的多模态生成式 AI 基础模型提供商(如推出 Sora 的 OpenAI )更具优势。这源于其完整的技术体系能更好满足企业实际需求。
在大模型的马拉松争霸赛中,百度智能云正用实力证明:我不仅是开局的佼佼者,更将是决赛圈的重量级选手。
#5分钟完成最强超算10^25年工作
谷歌量子芯片重大突破,马斯克、奥特曼齐祝贺
算力更强大,错误更少,量子计算的最大挑战之一被搞定了。
这是一个重要的里程碑。
12 月 10 日凌晨,在 OpenAI 的 Sora 吸引 AI 社区眼球的同时,谷歌宣布了一个重大突破:他们新的量子计算芯片 Willow 可通过规模扩展来降低错误率 —— 其 5 分钟就能完成超级计算机 10^25 年才能完成的计算。这是 Scaling Law 开始在量子计算领域应验了吗?
这一突破性成就立刻赢得了一片惊呼之声,伊隆・马斯克也惊呼点赞,并且他与桑达尔・皮查伊的互动中还畅想了一下未来:未来或许会使用 Starship 在太空中建造量子计算集群,为此必须大规模收集太阳能。
马斯克还强调:「任何有自尊的文明都至少应该达到卡尔达肖夫 II 型文明。」而我们现在甚至还未达到 I 型文明的 5%。
OpenAI CEO 山姆・奥特曼在自己的发布结束后也特意向皮查伊祝贺。Hyperbolic 的联合创始人、CTO Yuchen Jin 在底下表示:要不 OpenAI 和谷歌合作,用量子芯片训练 AI 吧?
皮查伊回应道:量子加 AI,创造多元宇宙未来,也恭喜 OpenAI o1 的发布。
大佬们之间的潜在合作,或许这么简单就能谈成了?
由于新技术的出现,人们都在畅想 AI 与量子计算的结合了。
谷歌这次 Willow 量子芯片的相关研究已发布在最新一期的《自然》杂志上:https://www.nature.com/articles/s41586-024-08449-y
从相关信息看,这个项目的参与研究者多达数百人,涉及机构包括普林斯顿大学、马萨诸塞大学、谷歌 DeepMind 等十余所大学和机构。
Google Quantum AI 的创始人兼负责人 Hartmut Neven 发布了一篇官方博客对此进行了详细的介绍。
Willow 是谷歌最新一代量子芯片,在多个指标上拥有最先进的性能,实现了两大主要成就。
- 首先,Willow 能够随着使用更多量子比特的扩展而指数级降低错误。这解决了量子纠错领域近 30 年来一直在追求的一个关键挑战。
- 其次,Willow 在不到五分钟的时间内完成了一个标准基准计算,而今天的最快超级计算机需要 10^25 年 —— 这个数字远远超过了宇宙的年龄。
Willow 芯片是 Google Quantum AI 在量子计算技术发展道路上的一个重要里程碑。
2012 年 Hartmut Neven 创立 Google Quantum AI 时,愿景是构建一个有用的、大规模的量子计算机,能够利用量子力学 —— 今天所知的自然的「操作系统」—— 来推动科学发现、开发有益的应用,并应对社会面临的一些最大挑战。
作为 Google Research 的一部分,该团队绘制了长期路线图,而 Willow 让它们在这条通往商业相关应用的道路上迈出了重大一步。
,时长06:38
由量子硬件总监 Julian Kelly 介绍 Willow 及其突破性成就。
指数级量子纠错 —— 低于阈值!
错误率是量子计算中最大的挑战之一,因为量子计算机中的计算单位量子比特(qubits)倾向于与它们的环境迅速交换信息,这使得保护完成计算所需的信息变得困难。
通常情况下,使用的量子比特越多,发生的错误就越多,系统就越「经典计算」,这样就会导致规模无法扩展。
今天谷歌团队在《自然》杂志上发表的研究成果显示,在 Willow 中使用的量子比特越多,错误就越少,系统就越量子化。
这样的技术着实有点反直觉。他们测试了越来越大的物理量子比特阵列,从 3×3 编码量子比特的网格扩展到 5×5,再到 7×7—— 每一次,利用他们最新的量子纠错技术,都能将错误率减半。
换句话说,他们实现了错误率的指数级降低。这一历史性的成就在该领域被称为「低于阈值」—— 在增加量子比特数量的同时能够降低错误。
要想展示在纠错上取得真正的进展,就必须证明能够低于阈值,这自 1995 年 Peter Shor 引入量子纠错以来一直是一个巨大的挑战。
这项成果还涉及其他科学意义上的「首次」。
例如,这也是实时纠错在超导量子系统上的首次引人注目的例子 —— 这对于任何有用的计算都至关重要,因为如果你不能足够快地纠正错误,它们会在计算完成之前破坏计算。
而且这是一个「超越盈亏平衡」的演示,该团队的量子比特阵列比单个物理量子比特有更长的寿命,这是一个无法伪造的迹象,表明纠错正在改善整个系统。
作为第一个低于阈值的系统,这是迄今为止构建的最令人信服的可扩展逻辑量子比特的原型。这是一个强烈的信号,表明我们确实可以构建有用的、非常大的量子计算机。Willow 让我们更接近于运行实用、商业相关的算法,这些算法在传统计算机上无法复制。
做同样的事
最快超算需要花 10^25 年
作为衡量 Willow 性能的一个标准,该团队使用了随机电路采样(RCS)基准测试。这个测试由该团队首创,现在已成为该领域的一个标准。
RCS 是当今可以在量子计算机上进行的最难的经典基准测试。你可以将这看作是量子计算的起点 —— 它检查量子计算机是否在做经典计算机无法完成的事情。任何构建量子计算机的团队都应该首先检查它是否能在 RCS 上击败经典计算机;否则,有充分的理由怀疑它能否处理更复杂的量子任务。
该团队一直使用这个基准来评估从一代芯片到下一代芯片的进步 —— 他们在 2019 年 10 月报告了 Sycamore 的结果,最近在 2024 年 10 月再次报告。
Willow 在这项基准测试上的表现令人震惊:它在不到五分钟的时间内完成了一项计算,而当今最快的超级计算机需要 10^25 年。如果写全,这将是 10,000,000,000,000,000,000,000,000 年。
这个令人难以置信的数字超出了物理学中已知的时间尺度,远远超过了宇宙的年龄。它证实了量子计算发生在许多平行宇宙中的观点,与我们生活在多元宇宙中的观点相吻合,这一预测最早是由 David Deutsch 提出的。
如下图所示,Willow 的这些最新结果是迄今为止得到的最好的结果,但谷歌将继续深入研究。
计算成本受到可用内存的极大影响。因此,该团队的估计考虑了一系列情况,从理想情况下的无限内存(▲)到更实际的、在 GPU 上可并行化的实现(⬤)
该团队对 Willow 如何超越世界上最强大的经典超级计算机之一 ——Frontier 的评估是基于保守的假设。
例如,他们假设可以完全访问二级存储,即硬盘,没有任何带宽开销 —— 这是对 Frontier 的一个慷慨而不切实际的允许。当然,就像他们在 2019 年宣布第一个超越经典计算的计算后发生的那样,他们预计经典计算机将在这项基准测试上继续改进,但迅速扩大的差距表明,量子处理器正以双指数速率起势,并将继续在他们扩大规模时远远超越经典计算机。
,时长05:58
首席科学家 Sergio Boixo、创始人和领导 Hartmut Neven 以及著名物理学家 John Preskill 讨论随机电路采样,这是一个展示量子计算机超越经典性能的基准。
最先进的性能
Willow 在他们位于圣巴巴拉最新、最先进的制造设施中制造 —— 这是全球为数不多从头开始建造的量子计算设施之一。
系统工程在设计和制造量子芯片时至关重要:芯片的所有组件,如单量子比特门、双量子比特门、量子比特重置和读出,都必须同时得到良好的工程化和集成。如果任何一个组件落后,或者两个组件不能很好地协同工作,它就会拖累系统性能。
因此,最大化系统性能指导着他们从芯片架构和制造到门开发和校准的所有方面的过程。他们报告的成就从整体上评估量子计算系统,而不是一次只评估一个因素。
该团队关注的是质量,而不仅仅是数量 —— 因为如果量子比特的质量不够高,仅仅生产更多的量子比特是没有帮助的。
拥有 105 个量子比特的 Willow 现在在上述两个系统基准测试中拥有同类最佳的性能:量子纠错和随机电路采样。
这样的算法基准测试是衡量整体芯片性能的最佳方式,其他更具体的性能指标也很重要。例如,他们的 T1 时间用于测量量子位可以保留激发的时间 —— 关键的量子计算资源 —— 现在接近 100µs(微秒)。与他们上一代芯片相比,改进了约 5 倍。
如果你想在不同平台之间比较这些量子硬件,请参阅下表:
Willow 在多个指标上的表现。
Willow 及未来的发展
该领域的下一个挑战是在当今的量子芯片上展示第一个「实用且超越经典」的计算,这个计算任务与现实世界的应用相关。
谷歌团队乐观地认为,Willow 这一代芯片可以帮助他们实现这一目标。
到目前为止,已经有两种不同类型的实验。一方面,他们运行了 RCS 基准测试,它衡量了与经典计算机的性能对比,但尚未展示出实际的商业应用。另一方面,他们进行了量子系统的科学有趣模拟,这些模拟导致了新的科学发现,但仍然在经典计算机的能力范围内。他们的目标是同时做到这两点 —— 进入那些超越经典计算机能力范围的算法领域,并且对现实世界、商业相关的问题是有用的。
随机电路采样(RCS)对经典计算机来说极具挑战性,但尚未展示出实际的商业应用。
谷歌正在邀请研究人员、工程师和开发者加入他们,开发者通过查看他们的开源软件和教育资源,包括他们在 Coursera 上的新课程,可以学习量子纠错的基础知识,并帮助他们创建能够解决未来问题的算法。
当被问及「为什么离开了新兴的人工智能领域,转而专注于量子计算」时,Hartmut Neven 表示,两者都将被证明是这个时代最具变革性的技术,但先进的人工智能将从量子计算的接入中显著受益。这就是 Quantum AI 命名的由来。
「量子算法具备 scaling laws 的优势,正如我们从 RCS 中看到的那样。对于人工智能所需的许多基础计算任务,也有类似的 scaling laws。因此,量子计算对于收集经典机器无法访问的训练数据、训练和优化某些学习架构以及模拟量子效应重要的系统将是不可或缺的。这将有助于发现新药物、设计更高效的电动汽车电池,并推动核聚变与新能源技术的进展。许多这些未来的变革性应用在经典计算机上是不可行的,它们正等待被量子计算解锁。」
看起来,在量子计算芯片上构建 AI 系统,的确是谷歌的重要目标之一,这会是未来 AI 技术突破的方向吗?在这个技术的交汇点上,量子计算与人工智能的结合,势必将创造出改变世界的无限可能。
让我们共同期待!
参考链接:
https://x.com/sundarpichai
https://blog.google/technology/research/google-willow-quantum-chip/
https://research.google/blog/making-quantum-error-correction-work/