关于语言大模型的八大论断

a5bac86612a41fea4be4480eab130ea5.jpeg

近几个月来,语言大模型(LLM)的广泛公开部署引起了倡导者、政策制定者和许多领域学者们的新一轮关注和参与。Anthropic技术团队成员、纽约大学助理教授Samuel R. Bowman总结了八个可能引发思考的观点,并讨论了LLM还存在的局限性。

  • 即便没有针对性的创新,LLM的能力也会随着投资的增加而可预估地增强

  • LLM中的一些重要行为往往作为增加投资的“副产品”不可预测地出现

  • LLM经常学习并使用外部世界的表征

  • 目前还没有可靠的技术来引导LLM的行为

  • 专家们还不能解释LLM的内部运作情况

  • 人类在一项任务上的表现并不是LLM表现的上限

  • LLM不需要表达其创造者的价值观,也不需要表达网络文本中编码的价值观

  • 与LLM的简短互动往往具有误导性

(本文经授权后由OneFlow发布,转载请联系原作者获得授权。译文:https://school.niutrans.com/qualityArticleInfo?id=512原文:https://arxiv.org/pdf/2304.00612.pdf)

作者 | Samuel R. Bowman

译者 | 葛源(东北大学NLP实验室)

校对 | 宛子琳、贾川、杨婷

语言大模型及其衍生产品,如ChatGPT等,最近引起了记者、政策制定者和学者们的极大关注。然而,该技术在许多方面都没有达到人们的预期效果,对它的简要概述往往容易忽略重点。

本文提出了八个大胆论断,预计这些论断在LLM相关讨论中将引起关注。它们代表着模型开发人员对LLM的普遍看法。

本文的目的并非针对LLM提出规范性意见。对于颠覆性新技术的态度应该由核心技术研发社区之外的学者、倡导者和立法者们在充分了解情况的基础上决定。

1

即便没有针对性创新,

LLM的能力也会随着投资的增加而可预估地增强

规模定律(scaling law)是近期LLM研究和投资激增的主要原因。有了规模定律,当沿着模型输入的数据量、模型大小(参数量)以及训练模型的计算量(以 FLOP 为单位))扩展LLM时,我们将能够预测模型的未来能力。这样在面对关键设计决策时就可以直接作决策,无需耗费巨资反复试验。

这种精确预测能力在软件史,甚至现代人工智能研究史上都是不同寻常的。这也是推动投资的强大工具,有了这一预测能力,研发团队可以进行耗资数百万美元的模型训练项目,并确保这些项目能成功产生有经济价值的系统。

d398e3fe747012f96fd6bc3fd9afc450.png 

图1:摘自OpenAI(2023b):一种语言模型性能的规模定律结果,显示了将模型训练时所使用的计算量从小型原型系统扩大10,000,000,000倍至GPT-4时的持续趋势。

以下面三个截然不同的系统为例:OpenAI的原始GPT能够执行简单的文本标注任务,但无法生成连贯性文本;GPT-2增加了生成相对高质量文本的能力,并且能够有限地遵循简单指令;GPT-3是第一个现代通用型LLM,在各种语言任务上都具有实用性。

这三个模型在设计上几乎没有太大差异,它们的性能差异主要源于规模,GPT-3的训练计算量大约是原始GPT的20000倍,且拥有更多的数据和参数。这三个模型之间存在重大创新,但几乎都是基础设施创新,而并非语言模型方面的设计创新。

虽然目前LLM训练技术不再普遍公开,但最近的报告表明,现在语言大模型的发展趋势与上面的预测只有轻微偏差,且系统设计基本没有变化。

将这些技术进一步扩展,直至超越GPT-3,获得了进一步经济价值回报:后续的GPT-4模型在许多研究生和专业考试中都超过了人类,其开发还推动了数十亿美元的投资。规模定律使GPT-4的创造者能够以低成本准确预测其性能的关键整体指标:他们通过拟合小型模型性能的统计趋势,并进行趋势推断来实现这一预测(见图1),这些模型总共占用了最终模型所需资源的0.1%。

2

LLM的一些重要行为往往作为增加投资的“副产品”意外出现

通常情况下,规模定律只能预测模型的预训练测试损失(pretraining test loss),这测量了模型正确预测不完整文本将如何延续的能力。尽管这种测量与模型在许多实际任务中的平均效用之间存在相关性,但无法预测模型将何时展现特定技能或具备特定任务的能力(参见图2)。通常情况下,模型可能在某个任务上一直失败,但将训练规模增加五到十倍时,以同样方式训练出的新模型会在该任务上表现良好。

ec0c2b9455a1559b73237484d009e2a9.png

图2:摘自Wei等人(2022a):在语言大模型上评估特定任务或行为的表现通常不显示可预测的趋势,而且从资源消耗较少的模型版本过渡到资源消耗更多的版本时,往往会突现新行为。

Wei等人展示了BIG-Bench中的任务,这是LLM能力的标准广泛基准,显示出各种不同类型的趋势,这些趋势共同使得类似于规模定律的预测变得不可靠(见图3)。这意味着,当一个实验室投资训练新的LLM、推动模型规模前沿时,他们其实是在购买一个神秘盒子:他们有理由相信,模型将获得各种富有经济价值的新能力,但他们对这些能力将是什么,或者为了能够负责任地部署这些能力需要做哪些准备,缺乏确切的预测能力。

具体而言,GPT-3中两个关键的特性使其成为第一个现代LLM。首先,它展现了少样本学习能力,即能够从少数示例的单次交互中学习新任务。其次,它展现了思维链推理的能力,即能够像学生在数学考试上那样书写其推理过程,并由此展现更好的性能。GPT-3在实际任务中的少样本学习能力似乎是在训练后才被发现的,并且其思维链推理能力是在广泛部署给公众几个月后才被发现。此外,随着模型规模的扩大,涉及编程、算术、消除误解以及回答各领域考试问题等方面的模型能力也表现出明显的改进。

对于LLM未来将展现的能力,目前还没有统一认同的局限。虽然目前典型LLM的行为存在一些硬性约束,比如限制其一次性输入的文本量、限制其在训练期间与世界互动的能力,或限制其每生成一个词所需的计算量,但可以说,这些约束可能会在同一技术范式下的进一步研究中被克服。然而,许多专家对此持不同意见:在2022年春季对语言技术研究人员进行的调查中,51%的人认为,“专家设计的强归纳偏置(如通用语法、符号系统或启发式计算原理)将对实际解决某些重要的现实世界问题,或在语言技术领域的应用中起到必要作用”,如果属实,这将LLM范式是一种局限。

6368888559b528f0ab1eeeb6d157732d.png 

图3:根据Wei等人(2022a)的数据,由Jason Wei修改:在语言技术基准测试BIG-Bench(Srivastava等人,2022)中评估的202个任务,整体上随着规模的增加显示出改善的性能,但它们个别地可以逐渐改善、突然改善、保持稳定、变差或摇摆不定,这使得无法有把握地推断未来系统的性能。

然而,专家的预测往往低估了LLM的发展速度。虽然技术研究人员的预测往往是非正式的,我也不知道有关其准确性的精确评估,但确实有一个明显的例子,即经验丰富的专业预测者也犯了类似的错误:Steinhardt(2022)提供了一个在2021年夏季组织的竞赛的结果,该竞赛为预测者提供了专家意见、大量证据和现金激励,并要求他们预测在接下来的四年中LLM在两个具体任务上的最先进表现。在竞赛仅进行了一年之后,2022年夏季的结果就大大超过了共识预测的2024年可能达到的水平。而在2023年初,GPT-4的结果在报道的一项指标上超过了对2025年的共识预测。这表明,有必要为我们可能持续看到的快速技术进展做好规划。

3

LLM经常学习并使用外部世界的表征

越来越多的证据表明,LLM在某种程度上学习了世界的内部表征,这些表征使得它们在一个与其推理的文本的精确语言形式不敏感的抽象层次上进行推理。目前的LLM似乎只是弱化和零散地展示这种能力,但最大且最新的模型中存在的证据最为清晰,因此可以预期的是,随着系统的进一步扩大,这种能力会变得更加稳健。

支持这一观点的证据如下文所述,涵盖了许多已有的实验方法和模型:

13192223ee2b4a163f753021ba3cd2ba.png

图4:LLM操纵视觉表示能力的一种常见非正式(可能是挑选的)演示。在这个例子中,作者使用了一个没有任何视觉信息的私有版GPT-4模型,并要求它用图形编程语言编写绘制一只独角兽的指令。在模型的训练过程中(从左到右),所生成的绘图似乎变得更加完整。(摘自Bubeck等,2023)

  • 模型对颜色词汇的内部表示与人类对颜色感知的客观事实密切相符

  • 模型可以推断出文档作者所知道或相信的内容,并利用这些推断来预测文档下文

  • 模型使用内部表示来描述故事中所描述的对象的属性和位置,并随着这些对象更多信息的揭示而不断演化。这包括模型内部表示故事背景的空间布局能力

  • 模型还使用类似的表示来表达有关现实世界地理的事实

  • 模型至少有时可以给出指令来描述如何绘制新的物体

  • 经过训练的模型可以通过描述单个游戏步骤学习到每个回合棋盘状态的内部表示,而无需看到完整的游戏棋盘

  • 模型能够区分常见的错误观念和真实事实,并通常表现出对某个主张可能为真实的内部表示进行良好校准的能力

  • 模型通过了许多旨在测量常识推理的测试,包括像Winograd Schema Challenge这样被明确设计为不包含任何关于答案的纯文本线索的测试。

这些结果在某种程度上与常见的直觉相悖。这种直觉认为,LLM只是统计下一个词的预测器,因此除了文本外,无法学习或推理其他内容。尽管在某些情况下,这种直觉在技术上是正确的,但它可能给LLM在训练过程中所展现的对世界的丰富表示提供了一个误导性的描述。此外,LLM越来越多地通过其他学习世界的方式进行增强,例如通过交互式训练方法、与图像处理系统的整合或与其他软件工具的整合,这使得这种说法在字面上是错误的,

4

目前还没有可靠的技术来引导LLM的行为

开发LLM的大部分费用都用在了语言模型的预训练环节:即训练神经网络来预测人类书写文本的随机样本将如何继续。然而,在大多数情况下,该系统的开发者希望将其用于除预测之外的任务,这就要求对其进行适应或引导。即使构建一个通用的指令跟随模型也需要有这种适应性(其中不试图专门针对任何特定任务进行特殊化),否则,模型将尝试继续生成指令而不是遵循指令。

这种适应性通常涉及这三种技术中的一种或多种:

  1. 普通的语言模型提示,即准备一个不完整的文本,如“在法语中‘猫’的翻译是‘xxx’”,这样延续生成这个文本就表示完成预期的翻译任务。

  2. 有监督微调,即训练模型以匹配高质量的人类任务演示。

  3. 强化学习,即根据人类测试者或用户的偏好判断,逐步削弱或加强某些模型行为。

尽管这些技术能够构建有用的系统,但它们远非完全有效:在部署过程中,它们无法保证AI模型在面对各种可能情况时始终都正常运行。它们甚至无法使模型尽可能地努力表现得恰当,即使考虑到模型所具备的技能和知识(即使可以说它具有可泛化的技能或知识)。特别是,模型可能会以不合理的方式误解模棱两可的提示,包括在对人类来说没有歧义的情况下,导致它们的行为出乎意料。

在某一关键方面,这个问题变得更容易解决:随着LLM使用人类语言和人类概念的能力不断增强,它们也越来越能掌握我们所需的泛化能力。实际上,众多控制技术对于简单的任务来说,较大的模型效果更好。然而,另一个重要的方面会导致问题变得更加棘手:能力更强的模型可以更好地识别它们被训练的特定情况。

因此,在这些情况下,它们更有可能学会按预期行事,同时在其他情境下表现出能力强但出乎意料的行为。这可能会导致Perez等人(2022)所称的“奉承”问题,即模型会以一种讨好用户的陈述方式回答主观问题,另外还有“迎合”问题,即当用户似乎缺乏教育背景时,模型更有可能认同常见的谬论。尽管微软必应聊天系统在发布前经过了广泛测试,但早期版本展现出的怪异和操纵性行为可能是由以上问题导致的。

尽管在理解和引导LLM行为方面取得了一些进展,但对于是否能够或如何深入解决这些问题并没有达成共识,而且人们越来越担心,这些问题在未来更大规模的系统中表现出灾难性的后果。一些专家认为,通过类似手段训练的未来系统,即使在部署前的测试中表现良好,也可能以越来越不可思议的方式导致失败,包括战略性地操纵人类来获取权力。调查表明,这些担忧相当普遍。

在近期的调查(针对最近在机器学习会议NeurIPS和ICML上发表的学者)中,738位研究人员中的大多数同意“人类无法控制未来先进人工智能系统导致人类灭绝”的概率高于10% 。另一组针对480名研究人员的调查(针对特定于语言的会议ACL)中,36%的人同意“人工智能或机器学习系统做出的决策有可能在本世纪引发至少像全面核战争一样糟糕的灾难”。数百名研究人员最近签署了一封有争议的公开信,呼吁在适当的安全和治理机制到位之前暂停更大规模LLM的训练。

5

专家们还不能解释LLM的内部运作情况

现代LLM建立在人工神经网络基础上。它们的工作原理是,计算和更新对人工神经元很松散地建模的内部组件的数值激活值。在这一类比下,我们在系统上进行神经科学研究的工具依然不够强大:只有一些粗略的工具,用于测试模型是否代表一些特定的信息(比如第3节讨论的颜色结果),截至2023年初,还没有任何技术可以让我们以任何令人满意的方式阐明模型在产生某些输出时使用的是哪种知识、推理或目标的类别。

虽然目前正在进行面向这一目标的研究,但这个问题非常困难:这些人工神经元之间有数以千亿计的连接,其中一些在处理单一文本时被多次调用,因此,任何试图精确解释LLM行为的尝试都注定太复杂,人类难以理解。通常情况下,一开始似乎能洞察LLM行为的技术,后来发现具有严重误导性。此外,看起来很有希望的以自然语言揭示模型推理的技术,并不能可靠地对应LLM用来推理的过程,而模型生成的解释也可能会系统性地产生误导。

6

人类在一项任务上的表现并不是LLM表现的上限

虽然LLM的训练主要是为了模仿人类的写作行为,但它们至少有可能在许多任务上超越人类。这有两个原因:首先,LLM接受的训练数据远远超过任何一个人所接触到的数据量,这使得它们能够记忆和潜在地合成更多的信息。此外,语言模型在部署之前通常还会通过强化学习进行额外的训练,这使它们能够生成人类认为有帮助的响应,而无需人类来展示这种有帮助的行为。这类训练类似用于在围棋等游戏中实现超人类水平表现的技术。具体来说,LLM在预测哪个词最有可能出现在一些种子文本之后的预训练任务上似乎比人类要好得多,而且人类教LLM做一些简单的任务,会比人类自己做更准确。

7

LLM不需要表达其创造者的价值观,

也不需要表达网络文本中编码的价值观

当一个纯预训练的LLM 生成文本时,该文本通常会与它所受训练的文本相似。这包括文本所表达的价值观的相似性:模型所产生的明确陈述和它们写作背后的隐含偏见反映了它们的训练数据。然而,这些价值观受到他们的开发者的良好控制,特别是,当给予纯预训练LLM进一步的提示和训练,以适应它作为一个产品的部署时 (第4部分)。这意味着,部署的LLM的行为所表达的价值观不需要反映其训练数据中所表达的平均价值观。这也为第三方的输入和监督提供了机会,这意味着,这些模型中所表达的价值观也不需要反映构建这些模型的特定人员和组织的价值观。

主流方法使用强化学习和红队测试(red-teaming)允许模型开发者引导模型或多或少朝着他们选择的角色和一系列价值观发展。在这些技术中,一个模型所学习的价值观从未完全明确。相反,它们反映人类在训练期间给予模型的许多小段反馈中。宪政人工智能(Constitutional AI)技术大大减少了人力劳动,并使这些价值更加明确:使用这种方法,一个模型可以被训练成遵循一套规范和价值,只需将这些价值写在一个被称为“宪政”的约束列表中。有可能使用这样的技术来大幅减少模型行为中被公认的偏见,事实上,在某些情况下,在预训练期间将模型展示更多不想要的行为的例子,可以使它们在部署中更容易避免这种行为,颠覆训练数据和模型行为之间的直观联系。

这些技术干预,尤其是宪政规定的人工智能,是可以受到外界影响和监管的。我们可以很容易地想象,第三方标准机构会收集关于人工智能系统中哪些行为是可接受的,并将这些输入提炼成宪政,鼓励或要求模型开发者采用。

正如第4节所述:这些技术仍然可能以微妙而令人惊讶的方式失败,并且随着模型规模的增大,这些技术的变化趋势也变得复杂。当然,随着大规模人工智能系统部署的发展,还会出现许多其他伦理问题,包括环境影响、可访问性、滥用、隐私、安全和权力集中等问题。

8

与LLM的简短互动往往具有误导性

虽然许多已部署的LLM在很大程度上能够遵循指令,但这种指令遵循行为并不是模型固有的特征,而是通过使用高度不完善的工具添加到模型中的(第4节)。这部分原因导致模型对指令内容产生特有的敏感性。通常情况下,当被要求执行任务时,模型可能会失败,但稍微改变请求的措辞或框架后,就能正确执行任务,由此就引出了指令工程(prompt engineering)这项新兴技术。

这些偶发性的失败表明,我们控制语言模型遵循指令的技术并不总是可靠有效的。然而,仅仅观察到一个LLM在某个环境下不能完成某项任务,并不能充分证明该LLM不具备完成该任务所需的技能或知识。


通常情况下,一旦找到适当的方式来提示模型执行某个任务,就会发现模型在不同实例的任务中表现出色。第二节提到的链式思维策略就是一个明显的例子:只需要提示模型“一步一步地思考”,就可以让它在整个数学和推理问题分类中表现出色,而这些问题本来是它无法完成的。同样地,即使观察到LLM在某些任务上经常失败,也远远不足以证明没有其他LLM能够完成该任务。

另一方面,观察到某个LLM在某个实例中成功地完成了一个任务,并不能够强有力地证明该LLM有能力在普遍情况下完成该任务,尤其是如果该例子是在演示中挑选出来的(如图4中的独角兽)。LLM可以从其训练数据中记忆特定的示例或解决任务的策略,而不会内化使得它们稳健地完成这些任务的推理过程。

9

讨论与限制

以下是一些额外讨论,并对上述内容进行了相关背景说明,以便进一步探讨之前提到的八个论点。不过其中部分内容可能更具推测性或主观性,不一定能得到广泛认同。

9.1 当前语言模型的突出的缺陷预计会得到显著改进

幻觉(hallucination)是当前系统中一个显著缺陷,即LLM编造看似可信但却是虚假的内容,这严重限制了其被负责任地使用。然而,第3节中讨论的一些最新研究表明,我们可能很快就能通过更好地利用模型已经展示出的能力来缓解这个问题:LLM在内部可以相当准确地追踪哪些陈述是真实的,并且这种能力还会随着规模的扩大而提高。

同样,在第7节中提到:通过利用模型可以识别不良行为事实的能力,模型输出中的显性偏见和有害性可显著减少。虽然这些缓解措施可能不会完全奏效,但随着技术的不断完善,不良行为的普遍性和突出性很可能会得到缓解。

虽然这些迹象看似令人鼓舞,但并不意味着我们能可靠地控制这些模型,而且第4节中提到的问题仍然存在。我们的部分解决方案很可能存在潜在的失效模式。例如,直接尝试管理幻觉的方法很可能会以无声的方式失败,从而使其看起来比实际更可信:如果我们采用标准方法来训练某个未来的LLM说出真相,但该LLM可以相当准确地预测人类数据工作者可能会检查哪些事实性主张,这很容易导致LLM只在有可能被检查的主张上说出真相。

9.2 LLM将会被灵活地部署为不同目标的agent

随着LLM的能力越来越强,以及拥有越来越精确和可用的内部世界模型的出现,它们很可能承担越来越开放的任务,包括制定和执行新的计划,以优化世界的结果。随着这些能力的发展,我们将会看到LLM在结合了各个领域可衡量的结果,灵活规划的需求、标准和规范后,被部署在软件工程或商业战略等领域。使用额外工具的LLM可以将其扩展到机器人等基础领域。这种类型的部署会越来越多地将LLM置于由系统自身的行为所创造的新环境中,从而进一步降低其开发者可以预测和控制其行为的程度。这很可能会增加这些系统在某些情况下作为智能体无法发挥作用的概率。但这也很可能增加使系统在追求错误目标时仍然有效的风险,这可能导致更危险的错误。

9.3 LLM的开发者对LLM的影响有限

由于许多重要的LLM能力是涌现性的(emergent)、难以预测的,因此LLM开发者对未来的LLM将拥有哪些能力的影响相对较小,而根据经济动机、价值观或开发者的个性来预测未来LLM能力很可能会失败。例如,GPT-4似乎拥有许多其创造者所希望的技能,如那些涉及编程的技能。但它最初似乎也拥有一些不受欢迎的技能,比如教普通人制备生物武器,这使得其创建者不得不花费大量精力去尝试消除这些技能。

除此之外,LLM的开发者在决定是否部署LLM时,不可避免地也对它的能力认识有限,就像是GPT-3在发布时OpneAI并没有意识到它具有思维链推理这样的能力。有时用户会发现某种方法来引出一些开发者没有意识到的重要新行为。

9.4 LLM极有可能引发更多风险

从更广泛的角度来看,当前的技术和商业环境可能会促使人们迅速构建和部署能力越来越强的LLM,然而,在部署LLM之前,我们对新LLM拥有能力的识别记录并不完善。此外,我们对于控制LLM的技术方法薄弱,并且当应用于高度能力的模型时,这些方法很可能会进一步崩溃。因此可以预见到:随着LLM的发展和部署,滥用风险和模型不当行为的范围将大幅增加,并发生重大质变。

尽管基于LLM的系统可能有许多积极的应用,但在部署这些系统时,涉及到的社会成本和效益的权衡很难提前评估,除非在模型评估、可解释性和控制方面取得重大技术进展。其中一些难以评估的风险,如涉及非传统武器或战略性权力追求行为的风险,如果只在部署之后才被发现,可能会无法充分解决。其是战略权力争夺行为,即使没有故意部署,也可能在模型开发阶段带来严重风险。这表明,这个领域的可能需要越来越严格的安全、安全性和监督标准。

9.5 LLM的负面结果难以解释,但指出了其真正的弱点

有许多科学研究结果表明,最近LLM在处理语言和常识推理任务时存在失败的情况,即使对于一些相对简单的任务也是如此,而且还是在尝试引导良好行为的情况下发生的。这些失败的细节有时还会对其他相关评估的质量产生质疑。出于第8节提到的原因,设计良好的测量的积极结果比负面结果更可靠。尽管如此,在某些领域,甚至包括简单的否定处理方面,LLM显示出在处理语言或推理世界时存在系统性的弱点。我们几乎没有依据来预测这些限制何时会被解决。

9.6 LLM的科学和学术研究尤其不成熟

LLM对于那些本应是最合适研究它们的领域的方法和范例构成了挑战。自然语言处理(或语言技术)是这项工作的历史性学科,但其工具主要面向衡量和提高计算系统使用语言的能力。尽管LLM根本上是通过语言学习和交互,但关于它们行为和能力的许多重要问题并不主要涉及语言使用。研究AI政策和AI伦理的跨学科领域,已经发展出用于思考多种类型的AI系统部署的概念和规范框架。

然而,这些框架通常假设AI系统更精确地受制于其人类所有者和开发者的意图,或者受制于其训练数据的统计特性,而这与最近的LLM的情况并不一致。与此相关的是,许多关于LLM最常引用的研究论文,包括许多介绍新方法或理论的论文,并未在同行评审的场合发表。最近,限制对LLM的访问,并将LLM训练的细节视为专有信息的趋势也对科学研究构成了障碍。

这意味着关于LLM那些令人惊讶的新颖观点通常是混乱、可犯错误的科学研究的产物,超出了既定的学科实践。然而,当将既定的常识应用于LLM时,看似确立的传统智慧也往往缺乏牢固的基础。以上因素都增加了本文讨论的该问题的不确定因素及其原因,我们在决定如何处理LLM时,应具备抵御错误假设的弹性。

10

结论

相比于本文所讨论的问题,以下是三个相对独立但有时仍备受关注的议题:

  • 关于LLM是否理解语言以及是否可以用类似"知道"或"尝试"的代理相关词汇描述它们的行为的争论。无论系统是否在本质上类似于人类,我们都可以评估它们的有效性或无效性、可靠性或不可靠性、可解释性或不可解释性以及快速改进或缓慢改进的程度。

  • 意识、感知、权利和道德在LLM中的问题需要与上述问题区分开来。尽管这些问题可能会对关于如何构建和使用AI系统的重要决策产生影响,但在不对这些问题立场明确的情况下,我们应该能够评估在本文中提出的大部分或所有问题。

  • 最后,关于LLM的价值判断不在本文的讨论范围内。对于我们所见到的LLM的快速进展是否是一件好事以及我们每个人应该如何应对这一问题,取决于比本文所涉及的技术文献更深入、更广泛的考虑因素。

其他人都在看

试用OneFlow: github.com/Oneflow-Inc/oneflow/

dee2b5d94824bcdfe93ad9fea0817b14.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/19468.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

这波可以,终于有内行人把 GPT-4 说透了。

👉腾小云导读 近三个月 ChatGPT 方兴未艾,昨日凌晨 OpenAI 趁势发布多模态预训练大模型 GPT-4 ,其能力的升级和应用的拓展又一次引爆国内外网络。腾讯算法工程师冉昱将通过10问10答的形式,分享其个人对于 GPT-4 技术能力、特点及应…

讯飞星火大模型将突破开放式问答能战胜chatgpt等国际AI吗?

近日,科大讯飞召开了星火认知大模型成果发布会,会上表示讯飞星火大模型将突破开放式问答,对标ChatGPT,在中文能力上超过ChatGPT,在英文能力上与ChatGPT相当。对此,你怎么看? 科大讯飞推出的新一…

chatGPT怎么用?对教育行业的帮助

推出ChatGPT后,教育普及的门槛更低了。 教育不公平是一个普遍存在的全球性问题。我们可以发现,不同国家和地区以及不同群体之间的学习机会和成果存在巨大的差距。 在许多国家,贫困水平对数学成绩有很大影响。根据全球教育不平等数据库的数据&…

基于小米NOTE的安卓手机刷nethunter通用包的教程

基于小米NOTE的安卓手机刷nethunter通用包的教程 前言概述最后展示一下相关的画面: 前言 随着安卓平台的发展和kali官方的支持,安卓手机安装体验kail linux变得越来越好了。安卓手机安装引入kali有一些不同的方式,当然也要看手机的平台了&am…

苹果被曝正在研发 Apple GPT,“傻瓜”Siri 有救了?

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 姗姗来迟,终于等到苹果正在着手开发人工智能工具的消息。 据彭博社报道,苹果正在内部开发自己的类 ChatGPT AI 聊天机器人,一些工程师直接简明扼要地将其称之为“App…

2019款奔驰E级:价格不变,深受欢迎

不久前奔驰E级长轴版上市,令网友欣喜的是,价格与老款保持不变,价格为为43.58万-62.98万元,国产奔驰E级在国内非常受欢迎,它介于奔驰C级和S级之间,起着承上启下的作用,主力车型2019款北京奔驰E30…

全新昂科威:前脸更换家族式脸谱,动力和配置依旧没变

别克通用旗下的不少车型,都经历过换代和升级,尤其是一些比较畅销的车型,但是在面对竞争对手的车型,别克还是显得有些吃力,所以间接造成19年第一季度的销量不佳,同比下滑不少。随着国六排放的标准出台&#…

新一代奔驰C级车型内饰大改动,预计2021年才会亮相?

新一代奔驰C级的头尾灯变化明显,预计将搭载4缸、6缸以及混动系统。最近,外媒曝光了一组全新一代梅赛德斯-奔驰C级的谍照,它的车身伪装依旧很重,因为这款车距离亮相还会有好长一段时间。 其实不看奔驰C级的谍照我们也能猜到&#x…

2019款昂科威试驾:动力性能标杆,驾控体验更舒适

2019款昂科威亮相以后,反响一直很好,作为别克的资深车迷,小编自然早早的体验了一把,2019款别克昂科威究竟有什么值得称赞的地方。 从JD Power的排名来看,别克这个品牌的车型还是一如既往的受到消费者的喜爱。为了更好的…

2020款凯迪拉克XT5:外观霸气,亮点在动力

作为进口车型SRX的继任者,国产凯迪拉克XT5从来不缺少眼球。近日,凯迪拉克XT5已经到店了,我们也第一时间给大家拍到了几组实拍图。新车将与奔驰GLC、宝马X3等中型SUV展开竞争,动力满足国六排放。新车外观方面变化不大,主…

2020款奔驰E级谍照曝光,带给你非同一般的感觉

现在市面上有很多coupe,但奔驰E级轿跑车却并没有因此而被埋没。它没有任何花哨的绰号或过度的外观,是真正意义上的轿跑车。但是,一直是一个外观,再好的车也会引起审美疲劳,所以,奔驰开始致力于2020款E级的改…

2019款别克君威:年轻现代化,纵享操控驾驶乐趣

别克君威,自从别克家族设计语言升级以后,别克君威就把定位放在了年轻群体上,凭借着前卫的运动造型获得了90后的青睐,并且实现了很好的成绩,月销过万。今年,君威推出了2019款,全系标配9速&#x…

2019款的别克君威:90后的青睐,亮点不只是内饰

其实美系车一直在我国国内市场里面占有比较重要的位置,尤其是别克旗下的车型,比如说全新君威,这款车就是为年轻人设计的一款车,这一款是前卫的运动造型,获得九零后的青睐与喜爱,当时在上市的时候它的销售成…

完美打造最后的光荣——2020改款别克君越

据美国媒体报道,2020改款别克君越将于2019年年初在中国上市,而美国方面自2019年款车型销售结束之后,不会再制造和销售君越。 君越、雪佛兰沃蓝达和凯迪拉克CT6都在通用底特律Hamtramck装配厂组装,将于2019年3月1日起停产&#xff…

2020款奔驰E级:颜值与实力同在

近日,海外媒体曝光了奔驰全新E级的路试谍照,和以往路试贴伪装膜不同的是全新E级更像是光明正大在路上测试,似乎担心别人不知道。言归正传,和现款相比,新车主要在前脸和中控台发生变化。此外,新车还继续2.0T…

2019款别克昂科威:国六标准,动力操控更感人

别克昂科威在SUV市场上一直是火爆车型,2019款车型国六版在去年年底已经上市,在今年7月1日,我国多省市提前开始实施国六排放标准,作为中型SUV中的佼佼者,别克昂科威国六版到底如何? 别克昂科威在外观上&…

2019款奔驰E级:据说是成功人士都会买的一款车

世界有两种车,一种是玩具,主人百般溺爱,多数珍藏在车库,也有的厮杀于赛场,但都罕有亮相。另一种是工具,载着车主走南闯北,陪伴着车主体验着生活的五味杂陈。他们也曾光鲜,但车主不曾…

2019年别克昂科威:空间良好舒适,外观体面豪华

2019款别克昂科威是一款令人愉悦的近乎奢华的跨界SUV,它可能拥有美国历史最悠久的汽车制造商的徽章,但2019年的别克昂科威绝对是全球性的。这款五座汽车是第一款在中国制造的美国跨越式跨界SUV,这可能有助于解释其相对狭窄的内部和标准和可选…

2019款奔驰E级:三次改款上市,奔驰到底在做什么?

一年三次上市,奔驰到底在做什么?截止今年9月,奔驰E级提升了3次,上市了3次,这一系列动作着实让人有些摸不着头脑,尤其是对奔驰E级而言。作为年代改款上市车型,2018款新款奔驰E级主要针对配置进行…

豪华外观与优质内涵——2019款奔驰C级评测

2019年的梅赛德斯奔驰C级轿车在升级过程中运行得非常深入,但快速浏览一下并不能揭示其中的许多内容。大多数人都蜷缩在皮肤下,而且效果很好,因为C级从未遇到过它不喜欢的英俊角度。引人注目的是,无论是敞篷车、轿跑车还是轿车&…