近几个月来,语言大模型(LLM)的广泛公开部署引起了倡导者、政策制定者和许多领域学者们的新一轮关注和参与。Anthropic技术团队成员、纽约大学助理教授Samuel R. Bowman总结了八个可能引发思考的观点,并讨论了LLM还存在的局限性。
即便没有针对性的创新,LLM的能力也会随着投资的增加而可预估地增强
LLM中的一些重要行为往往作为增加投资的“副产品”不可预测地出现
LLM经常学习并使用外部世界的表征
目前还没有可靠的技术来引导LLM的行为
专家们还不能解释LLM的内部运作情况
人类在一项任务上的表现并不是LLM表现的上限
LLM不需要表达其创造者的价值观,也不需要表达网络文本中编码的价值观
与LLM的简短互动往往具有误导性
(本文经授权后由OneFlow发布,转载请联系原作者获得授权。译文:https://school.niutrans.com/qualityArticleInfo?id=512;原文:https://arxiv.org/pdf/2304.00612.pdf)
作者 | Samuel R. Bowman
译者 | 葛源(东北大学NLP实验室)
校对 | 宛子琳、贾川、杨婷
语言大模型及其衍生产品,如ChatGPT等,最近引起了记者、政策制定者和学者们的极大关注。然而,该技术在许多方面都没有达到人们的预期效果,对它的简要概述往往容易忽略重点。
本文提出了八个大胆论断,预计这些论断在LLM相关讨论中将引起关注。它们代表着模型开发人员对LLM的普遍看法。
本文的目的并非针对LLM提出规范性意见。对于颠覆性新技术的态度应该由核心技术研发社区之外的学者、倡导者和立法者们在充分了解情况的基础上决定。
1
即便没有针对性创新,
LLM的能力也会随着投资的增加而可预估地增强
规模定律(scaling law)是近期LLM研究和投资激增的主要原因。有了规模定律,当沿着模型输入的数据量、模型大小(参数量)以及训练模型的计算量(以 FLOP 为单位))扩展LLM时,我们将能够预测模型的未来能力。这样在面对关键设计决策时就可以直接作决策,无需耗费巨资反复试验。
这种精确预测能力在软件史,甚至现代人工智能研究史上都是不同寻常的。这也是推动投资的强大工具,有了这一预测能力,研发团队可以进行耗资数百万美元的模型训练项目,并确保这些项目能成功产生有经济价值的系统。
图1:摘自OpenAI(2023b):一种语言模型性能的规模定律结果,显示了将模型训练时所使用的计算量从小型原型系统扩大10,000,000,000倍至GPT-4时的持续趋势。
以下面三个截然不同的系统为例:OpenAI的原始GPT能够执行简单的文本标注任务,但无法生成连贯性文本;GPT-2增加了生成相对高质量文本的能力,并且能够有限地遵循简单指令;GPT-3是第一个现代通用型LLM,在各种语言任务上都具有实用性。
这三个模型在设计上几乎没有太大差异,它们的性能差异主要源于规模,GPT-3的训练计算量大约是原始GPT的20000倍,且拥有更多的数据和参数。这三个模型之间存在重大创新,但几乎都是基础设施创新,而并非语言模型方面的设计创新。
虽然目前LLM训练技术不再普遍公开,但最近的报告表明,现在语言大模型的发展趋势与上面的预测只有轻微偏差,且系统设计基本没有变化。
将这些技术进一步扩展,直至超越GPT-3,获得了进一步经济价值回报:后续的GPT-4模型在许多研究生和专业考试中都超过了人类,其开发还推动了数十亿美元的投资。规模定律使GPT-4的创造者能够以低成本准确预测其性能的关键整体指标:他们通过拟合小型模型性能的统计趋势,并进行趋势推断来实现这一预测(见图1),这些模型总共占用了最终模型所需资源的0.1%。
2
LLM的一些重要行为往往作为增加投资的“副产品”意外出现
通常情况下,规模定律只能预测模型的预训练测试损失(pretraining test loss),这测量了模型正确预测不完整文本将如何延续的能力。尽管这种测量与模型在许多实际任务中的平均效用之间存在相关性,但无法预测模型将何时展现特定技能或具备特定任务的能力(参见图2)。通常情况下,模型可能在某个任务上一直失败,但将训练规模增加五到十倍时,以同样方式训练出的新模型会在该任务上表现良好。
图2:摘自Wei等人(2022a):在语言大模型上评估特定任务或行为的表现通常不显示可预测的趋势,而且从资源消耗较少的模型版本过渡到资源消耗更多的版本时,往往会突现新行为。
Wei等人展示了BIG-Bench中的任务,这是LLM能力的标准广泛基准,显示出各种不同类型的趋势,这些趋势共同使得类似于规模定律的预测变得不可靠(见图3)。这意味着,当一个实验室投资训练新的LLM、推动模型规模前沿时,他们其实是在购买一个神秘盒子:他们有理由相信,模型将获得各种富有经济价值的新能力,但他们对这些能力将是什么,或者为了能够负责任地部署这些能力需要做哪些准备,缺乏确切的预测能力。
具体而言,GPT-3中两个关键的特性使其成为第一个现代LLM。首先,它展现了少样本学习能力,即能够从少数示例的单次交互中学习新任务。其次,它展现了思维链推理的能力,即能够像学生在数学考试上那样书写其推理过程,并由此展现更好的性能。GPT-3在实际任务中的少样本学习能力似乎是在训练后才被发现的,并且其思维链推理能力是在广泛部署给公众几个月后才被发现。此外,随着模型规模的扩大,涉及编程、算术、消除误解以及回答各领域考试问题等方面的模型能力也表现出明显的改进。
对于LLM未来将展现的能力,目前还没有统一认同的局限。虽然目前典型LLM的行为存在一些硬性约束,比如限制其一次性输入的文本量、限制其在训练期间与世界互动的能力,或限制其每生成一个词所需的计算量,但可以说,这些约束可能会在同一技术范式下的进一步研究中被克服。然而,许多专家对此持不同意见:在2022年春季对语言技术研究人员进行的调查中,51%的人认为,“专家设计的强归纳偏置(如通用语法、符号系统或启发式计算原理)将对实际解决某些重要的现实世界问题,或在语言技术领域的应用中起到必要作用”,如果属实,这将LLM范式是一种局限。
图3:根据Wei等人(2022a)的数据,由Jason Wei修改:在语言技术基准测试BIG-Bench(Srivastava等人,2022)中评估的202个任务,整体上随着规模的增加显示出改善的性能,但它们个别地可以逐渐改善、突然改善、保持稳定、变差或摇摆不定,这使得无法有把握地推断未来系统的性能。
然而,专家的预测往往低估了LLM的发展速度。虽然技术研究人员的预测往往是非正式的,我也不知道有关其准确性的精确评估,但确实有一个明显的例子,即经验丰富的专业预测者也犯了类似的错误:Steinhardt(2022)提供了一个在2021年夏季组织的竞赛的结果,该竞赛为预测者提供了专家意见、大量证据和现金激励,并要求他们预测在接下来的四年中LLM在两个具体任务上的最先进表现。在竞赛仅进行了一年之后,2022年夏季的结果就大大超过了共识预测的2024年可能达到的水平。而在2023年初,GPT-4的结果在报道的一项指标上超过了对2025年的共识预测。这表明,有必要为我们可能持续看到的快速技术进展做好规划。
3
LLM经常学习并使用外部世界的表征
越来越多的证据表明,LLM在某种程度上学习了世界的内部表征,这些表征使得它们在一个与其推理的文本的精确语言形式不敏感的抽象层次上进行推理。目前的LLM似乎只是弱化和零散地展示这种能力,但最大且最新的模型中存在的证据最为清晰,因此可以预期的是,随着系统的进一步扩大,这种能力会变得更加稳健。
支持这一观点的证据如下文所述,涵盖了许多已有的实验方法和模型:
图4:LLM操纵视觉表示能力的一种常见非正式(可能是挑选的)演示。在这个例子中,作者使用了一个没有任何视觉信息的私有版GPT-4模型,并要求它用图形编程语言编写绘制一只独角兽的指令。在模型的训练过程中(从左到右),所生成的绘图似乎变得更加完整。(摘自Bubeck等,2023)
模型对颜色词汇的内部表示与人类对颜色感知的客观事实密切相符
模型可以推断出文档作者所知道或相信的内容,并利用这些推断来预测文档下文
模型使用内部表示来描述故事中所描述的对象的属性和位置,并随着这些对象更多信息的揭示而不断演化。这包括模型内部表示故事背景的空间布局能力
模型还使用类似的表示来表达有关现实世界地理的事实
模型至少有时可以给出指令来描述如何绘制新的物体
经过训练的模型可以通过描述单个游戏步骤学习到每个回合棋盘状态的内部表示,而无需看到完整的游戏棋盘
模型能够区分常见的错误观念和真实事实,并通常表现出对某个主张可能为真实的内部表示进行良好校准的能力
模型通过了许多旨在测量常识推理的测试,包括像Winograd Schema Challenge这样被明确设计为不包含任何关于答案的纯文本线索的测试。
这些结果在某种程度上与常见的直觉相悖。这种直觉认为,LLM只是统计下一个词的预测器,因此除了文本外,无法学习或推理其他内容。尽管在某些情况下,这种直觉在技术上是正确的,但它可能给LLM在训练过程中所展现的对世界的丰富表示提供了一个误导性的描述。此外,LLM越来越多地通过其他学习世界的方式进行增强,例如通过交互式训练方法、与图像处理系统的整合或与其他软件工具的整合,这使得这种说法在字面上是错误的,
4
目前还没有可靠的技术来引导LLM的行为
开发LLM的大部分费用都用在了语言模型的预训练环节:即训练神经网络来预测人类书写文本的随机样本将如何继续。然而,在大多数情况下,该系统的开发者希望将其用于除预测之外的任务,这就要求对其进行适应或引导。即使构建一个通用的指令跟随模型也需要有这种适应性(其中不试图专门针对任何特定任务进行特殊化),否则,模型将尝试继续生成指令而不是遵循指令。
这种适应性通常涉及这三种技术中的一种或多种:
普通的语言模型提示,即准备一个不完整的文本,如“在法语中‘猫’的翻译是‘xxx’”,这样延续生成这个文本就表示完成预期的翻译任务。
有监督微调,即训练模型以匹配高质量的人类任务演示。
强化学习,即根据人类测试者或用户的偏好判断,逐步削弱或加强某些模型行为。
尽管这些技术能够构建有用的系统,但它们远非完全有效:在部署过程中,它们无法保证AI模型在面对各种可能情况时始终都正常运行。它们甚至无法使模型尽可能地努力表现得恰当,即使考虑到模型所具备的技能和知识(即使可以说它具有可泛化的技能或知识)。特别是,模型可能会以不合理的方式误解模棱两可的提示,包括在对人类来说没有歧义的情况下,导致它们的行为出乎意料。
在某一关键方面,这个问题变得更容易解决:随着LLM使用人类语言和人类概念的能力不断增强,它们也越来越能掌握我们所需的泛化能力。实际上,众多控制技术对于简单的任务来说,较大的模型效果更好。然而,另一个重要的方面会导致问题变得更加棘手:能力更强的模型可以更好地识别它们被训练的特定情况。
因此,在这些情况下,它们更有可能学会按预期行事,同时在其他情境下表现出能力强但出乎意料的行为。这可能会导致Perez等人(2022)所称的“奉承”问题,即模型会以一种讨好用户的陈述方式回答主观问题,另外还有“迎合”问题,即当用户似乎缺乏教育背景时,模型更有可能认同常见的谬论。尽管微软必应聊天系统在发布前经过了广泛测试,但早期版本展现出的怪异和操纵性行为可能是由以上问题导致的。
尽管在理解和引导LLM行为方面取得了一些进展,但对于是否能够或如何深入解决这些问题并没有达成共识,而且人们越来越担心,这些问题在未来更大规模的系统中表现出灾难性的后果。一些专家认为,通过类似手段训练的未来系统,即使在部署前的测试中表现良好,也可能以越来越不可思议的方式导致失败,包括战略性地操纵人类来获取权力。调查表明,这些担忧相当普遍。
在近期的调查(针对最近在机器学习会议NeurIPS和ICML上发表的学者)中,738位研究人员中的大多数同意“人类无法控制未来先进人工智能系统导致人类灭绝”的概率高于10% 。另一组针对480名研究人员的调查(针对特定于语言的会议ACL)中,36%的人同意“人工智能或机器学习系统做出的决策有可能在本世纪引发至少像全面核战争一样糟糕的灾难”。数百名研究人员最近签署了一封有争议的公开信,呼吁在适当的安全和治理机制到位之前暂停更大规模LLM的训练。
5
专家们还不能解释LLM的内部运作情况
现代LLM建立在人工神经网络基础上。它们的工作原理是,计算和更新对人工神经元很松散地建模的内部组件的数值激活值。在这一类比下,我们在系统上进行神经科学研究的工具依然不够强大:只有一些粗略的工具,用于测试模型是否代表一些特定的信息(比如第3节讨论的颜色结果),截至2023年初,还没有任何技术可以让我们以任何令人满意的方式阐明模型在产生某些输出时使用的是哪种知识、推理或目标的类别。
虽然目前正在进行面向这一目标的研究,但这个问题非常困难:这些人工神经元之间有数以千亿计的连接,其中一些在处理单一文本时被多次调用,因此,任何试图精确解释LLM行为的尝试都注定太复杂,人类难以理解。通常情况下,一开始似乎能洞察LLM行为的技术,后来发现具有严重误导性。此外,看起来很有希望的以自然语言揭示模型推理的技术,并不能可靠地对应LLM用来推理的过程,而模型生成的解释也可能会系统性地产生误导。
6
人类在一项任务上的表现并不是LLM表现的上限
虽然LLM的训练主要是为了模仿人类的写作行为,但它们至少有可能在许多任务上超越人类。这有两个原因:首先,LLM接受的训练数据远远超过任何一个人所接触到的数据量,这使得它们能够记忆和潜在地合成更多的信息。此外,语言模型在部署之前通常还会通过强化学习进行额外的训练,这使它们能够生成人类认为有帮助的响应,而无需人类来展示这种有帮助的行为。这类训练类似用于在围棋等游戏中实现超人类水平表现的技术。具体来说,LLM在预测哪个词最有可能出现在一些种子文本之后的预训练任务上似乎比人类要好得多,而且人类教LLM做一些简单的任务,会比人类自己做更准确。
7
LLM不需要表达其创造者的价值观,
也不需要表达网络文本中编码的价值观
当一个纯预训练的LLM 生成文本时,该文本通常会与它所受训练的文本相似。这包括文本所表达的价值观的相似性:模型所产生的明确陈述和它们写作背后的隐含偏见反映了它们的训练数据。然而,这些价值观受到他们的开发者的良好控制,特别是,当给予纯预训练LLM进一步的提示和训练,以适应它作为一个产品的部署时 (第4部分)。这意味着,部署的LLM的行为所表达的价值观不需要反映其训练数据中所表达的平均价值观。这也为第三方的输入和监督提供了机会,这意味着,这些模型中所表达的价值观也不需要反映构建这些模型的特定人员和组织的价值观。
主流方法使用强化学习和红队测试(red-teaming)允许模型开发者引导模型或多或少朝着他们选择的角色和一系列价值观发展。在这些技术中,一个模型所学习的价值观从未完全明确。相反,它们反映人类在训练期间给予模型的许多小段反馈中。宪政人工智能(Constitutional AI)技术大大减少了人力劳动,并使这些价值更加明确:使用这种方法,一个模型可以被训练成遵循一套规范和价值,只需将这些价值写在一个被称为“宪政”的约束列表中。有可能使用这样的技术来大幅减少模型行为中被公认的偏见,事实上,在某些情况下,在预训练期间将模型展示更多不想要的行为的例子,可以使它们在部署中更容易避免这种行为,颠覆训练数据和模型行为之间的直观联系。
这些技术干预,尤其是宪政规定的人工智能,是可以受到外界影响和监管的。我们可以很容易地想象,第三方标准机构会收集关于人工智能系统中哪些行为是可接受的,并将这些输入提炼成宪政,鼓励或要求模型开发者采用。
正如第4节所述:这些技术仍然可能以微妙而令人惊讶的方式失败,并且随着模型规模的增大,这些技术的变化趋势也变得复杂。当然,随着大规模人工智能系统部署的发展,还会出现许多其他伦理问题,包括环境影响、可访问性、滥用、隐私、安全和权力集中等问题。
8
与LLM的简短互动往往具有误导性
虽然许多已部署的LLM在很大程度上能够遵循指令,但这种指令遵循行为并不是模型固有的特征,而是通过使用高度不完善的工具添加到模型中的(第4节)。这部分原因导致模型对指令内容产生特有的敏感性。通常情况下,当被要求执行任务时,模型可能会失败,但稍微改变请求的措辞或框架后,就能正确执行任务,由此就引出了指令工程(prompt engineering)这项新兴技术。
这些偶发性的失败表明,我们控制语言模型遵循指令的技术并不总是可靠有效的。然而,仅仅观察到一个LLM在某个环境下不能完成某项任务,并不能充分证明该LLM不具备完成该任务所需的技能或知识。
通常情况下,一旦找到适当的方式来提示模型执行某个任务,就会发现模型在不同实例的任务中表现出色。第二节提到的链式思维策略就是一个明显的例子:只需要提示模型“一步一步地思考”,就可以让它在整个数学和推理问题分类中表现出色,而这些问题本来是它无法完成的。同样地,即使观察到LLM在某些任务上经常失败,也远远不足以证明没有其他LLM能够完成该任务。
另一方面,观察到某个LLM在某个实例中成功地完成了一个任务,并不能够强有力地证明该LLM有能力在普遍情况下完成该任务,尤其是如果该例子是在演示中挑选出来的(如图4中的独角兽)。LLM可以从其训练数据中记忆特定的示例或解决任务的策略,而不会内化使得它们稳健地完成这些任务的推理过程。
9
讨论与限制
以下是一些额外讨论,并对上述内容进行了相关背景说明,以便进一步探讨之前提到的八个论点。不过其中部分内容可能更具推测性或主观性,不一定能得到广泛认同。
9.1 当前语言模型的突出的缺陷预计会得到显著改进
幻觉(hallucination)是当前系统中一个显著缺陷,即LLM编造看似可信但却是虚假的内容,这严重限制了其被负责任地使用。然而,第3节中讨论的一些最新研究表明,我们可能很快就能通过更好地利用模型已经展示出的能力来缓解这个问题:LLM在内部可以相当准确地追踪哪些陈述是真实的,并且这种能力还会随着规模的扩大而提高。
同样,在第7节中提到:通过利用模型可以识别不良行为事实的能力,模型输出中的显性偏见和有害性可显著减少。虽然这些缓解措施可能不会完全奏效,但随着技术的不断完善,不良行为的普遍性和突出性很可能会得到缓解。
虽然这些迹象看似令人鼓舞,但并不意味着我们能可靠地控制这些模型,而且第4节中提到的问题仍然存在。我们的部分解决方案很可能存在潜在的失效模式。例如,直接尝试管理幻觉的方法很可能会以无声的方式失败,从而使其看起来比实际更可信:如果我们采用标准方法来训练某个未来的LLM说出真相,但该LLM可以相当准确地预测人类数据工作者可能会检查哪些事实性主张,这很容易导致LLM只在有可能被检查的主张上说出真相。
9.2 LLM将会被灵活地部署为不同目标的agent
随着LLM的能力越来越强,以及拥有越来越精确和可用的内部世界模型的出现,它们很可能承担越来越开放的任务,包括制定和执行新的计划,以优化世界的结果。随着这些能力的发展,我们将会看到LLM在结合了各个领域可衡量的结果,灵活规划的需求、标准和规范后,被部署在软件工程或商业战略等领域。使用额外工具的LLM可以将其扩展到机器人等基础领域。这种类型的部署会越来越多地将LLM置于由系统自身的行为所创造的新环境中,从而进一步降低其开发者可以预测和控制其行为的程度。这很可能会增加这些系统在某些情况下作为智能体无法发挥作用的概率。但这也很可能增加使系统在追求错误目标时仍然有效的风险,这可能导致更危险的错误。
9.3 LLM的开发者对LLM的影响有限
由于许多重要的LLM能力是涌现性的(emergent)、难以预测的,因此LLM开发者对未来的LLM将拥有哪些能力的影响相对较小,而根据经济动机、价值观或开发者的个性来预测未来LLM能力很可能会失败。例如,GPT-4似乎拥有许多其创造者所希望的技能,如那些涉及编程的技能。但它最初似乎也拥有一些不受欢迎的技能,比如教普通人制备生物武器,这使得其创建者不得不花费大量精力去尝试消除这些技能。
除此之外,LLM的开发者在决定是否部署LLM时,不可避免地也对它的能力认识有限,就像是GPT-3在发布时OpneAI并没有意识到它具有思维链推理这样的能力。有时用户会发现某种方法来引出一些开发者没有意识到的重要新行为。
9.4 LLM极有可能引发更多风险
从更广泛的角度来看,当前的技术和商业环境可能会促使人们迅速构建和部署能力越来越强的LLM,然而,在部署LLM之前,我们对新LLM拥有能力的识别记录并不完善。此外,我们对于控制LLM的技术方法薄弱,并且当应用于高度能力的模型时,这些方法很可能会进一步崩溃。因此可以预见到:随着LLM的发展和部署,滥用风险和模型不当行为的范围将大幅增加,并发生重大质变。
尽管基于LLM的系统可能有许多积极的应用,但在部署这些系统时,涉及到的社会成本和效益的权衡很难提前评估,除非在模型评估、可解释性和控制方面取得重大技术进展。其中一些难以评估的风险,如涉及非传统武器或战略性权力追求行为的风险,如果只在部署之后才被发现,可能会无法充分解决。其是战略权力争夺行为,即使没有故意部署,也可能在模型开发阶段带来严重风险。这表明,这个领域的可能需要越来越严格的安全、安全性和监督标准。
9.5 LLM的负面结果难以解释,但指出了其真正的弱点
有许多科学研究结果表明,最近LLM在处理语言和常识推理任务时存在失败的情况,即使对于一些相对简单的任务也是如此,而且还是在尝试引导良好行为的情况下发生的。这些失败的细节有时还会对其他相关评估的质量产生质疑。出于第8节提到的原因,设计良好的测量的积极结果比负面结果更可靠。尽管如此,在某些领域,甚至包括简单的否定处理方面,LLM显示出在处理语言或推理世界时存在系统性的弱点。我们几乎没有依据来预测这些限制何时会被解决。
9.6 LLM的科学和学术研究尤其不成熟
LLM对于那些本应是最合适研究它们的领域的方法和范例构成了挑战。自然语言处理(或语言技术)是这项工作的历史性学科,但其工具主要面向衡量和提高计算系统使用语言的能力。尽管LLM根本上是通过语言学习和交互,但关于它们行为和能力的许多重要问题并不主要涉及语言使用。研究AI政策和AI伦理的跨学科领域,已经发展出用于思考多种类型的AI系统部署的概念和规范框架。
然而,这些框架通常假设AI系统更精确地受制于其人类所有者和开发者的意图,或者受制于其训练数据的统计特性,而这与最近的LLM的情况并不一致。与此相关的是,许多关于LLM最常引用的研究论文,包括许多介绍新方法或理论的论文,并未在同行评审的场合发表。最近,限制对LLM的访问,并将LLM训练的细节视为专有信息的趋势也对科学研究构成了障碍。
这意味着关于LLM那些令人惊讶的新颖观点通常是混乱、可犯错误的科学研究的产物,超出了既定的学科实践。然而,当将既定的常识应用于LLM时,看似确立的传统智慧也往往缺乏牢固的基础。以上因素都增加了本文讨论的该问题的不确定因素及其原因,我们在决定如何处理LLM时,应具备抵御错误假设的弹性。
10
结论
相比于本文所讨论的问题,以下是三个相对独立但有时仍备受关注的议题:
关于LLM是否理解语言以及是否可以用类似"知道"或"尝试"的代理相关词汇描述它们的行为的争论。无论系统是否在本质上类似于人类,我们都可以评估它们的有效性或无效性、可靠性或不可靠性、可解释性或不可解释性以及快速改进或缓慢改进的程度。
意识、感知、权利和道德在LLM中的问题需要与上述问题区分开来。尽管这些问题可能会对关于如何构建和使用AI系统的重要决策产生影响,但在不对这些问题立场明确的情况下,我们应该能够评估在本文中提出的大部分或所有问题。
最后,关于LLM的价值判断不在本文的讨论范围内。对于我们所见到的LLM的快速进展是否是一件好事以及我们每个人应该如何应对这一问题,取决于比本文所涉及的技术文献更深入、更广泛的考虑因素。
其他人都在看
揭示GPT Tokenizer的工作原理
GPT总设计师:大型语言模型的未来
为什么ChatGPT用强化学习而非监督学习
AI算力反碎片化:世界上最快的统一矩阵乘法
OneEmbedding:单卡训练TB级推荐模型不是梦
GLM训练加速:性能最高提升3倍,显存节省1/3
试用OneFlow: github.com/Oneflow-Inc/oneflow/