KOLA: CAREFULLY BENCHMARKING WORLD KNOWLEDGE OF LARGE LANGUAGE MODELS

文章目录

    • 题目
    • 摘要
    • 简介
    • KOLA 基准
    • 实验评估
    • 结论和未来工作
    • 道德声明

题目

KOLA:仔细对大型语言模型的世界知识进行基准测试

在这里插入图片描述

论文地址:https://arxiv.org/abs/2306.09296
项目地址:https://github.com/ranahaani/GNews

摘要

    大型语言模型 (LLM) 的卓越性能要求评估方法不断改进。我们认为,细致周到的设计并非仅仅探索 LLM 能力的广度,对于全面、公正和适用的评估也至关重要。鉴于世界知识对 LLM 的重要性,我们构建了以知识为导向的 LLM 评估基准 (KoLA),其中我们精心设计了三个关键因素:(1)对于能力建模,我们模仿人类认知,形成与知识相关的能力的四级分类法,涵盖 19 项任务。(2)对于数据,为确保公平比较,我们同时使用维基百科(LLM 普遍预训练的语料库)和不断收集的新兴语料库,旨在评估处理看不见的数据和不断发展的知识的能力。(3)对于评估标准,我们采用对比系统,包括总体标准分数,以便在任务和模型之间更好地进行数值比较,以及独特的自我对比指标,用于自动评估知识创造能力。我们评估了 28 个开源和商业 LLM,得到了一些有趣的发现。KoLA 数据集将每三个月更新一次,为开发 LLM 和知识系统提供及时的参考。

简介

    GPT-4等大型语言模型 (LLM) 最近取得了显著突破,引起了广泛的震惊。考虑到 LLM 所展现出的广泛而深刻的自然语言理解和生成能力,传统的基准侧重于相对狭窄和肤浅的能力,对于测试它们不再那么有用。有必要构建更好的基准,以有效地比较 LLM 并提供有价值的诊断结果。为此,提出了各种基准,重点是扩大评估范围以涵盖更广泛的能力 或更具挑战性的任务。除了扩大评估范围以探索 LLM 能力的广度之外,我们认为精心的设计也是必要的,以建立有助于深入洞察、对不同 LLM 保持公正、并对有兴趣选择和提升 LLM 的受众具有高度适用性的评估。设计基准需要仔细考虑三个关键因素:

  1. 能力建模。基准不仅应定义所需能力的范围,还应模拟所评估能力之间的内在联系,从而为如何获得和提高这些能力提供诊断性洞察。
  2. 数据。鉴于 LLM 的训练数据范围极其广泛,其中可能包括某些任务的注释数据,并且通常未公开,因此确保确保训练数据的差异不影响评估的公平性是至关重要且具有挑战性的。
  3. 评估标准。为了获得高适用性,评估指标应该使受众能够轻松理解并获得有用的观察结果。此外,在评估像生成任务这样具有较大搜索空间的任务时,存在许多众所周知的问题。相关能力的评估仍然严重依赖于人工评估,这既耗时又不易重现。

在这里插入图片描述

    在本文中,我们提出了一个面向知识的 LLM 评估基准(KoLA),旨在通过考虑上述三个因素进行细致的设计来仔细基准化 LLM 的世界知识:对于能力建模,我们评估 LLM 的世界知识并设计一个四级认知能力分类法。我们选择世界知识作为评估范围的原因是:

  1. 世界知识被广泛认为在LLM的出色表现中发挥着根本性作用,而对知识的更深层次掌握使LLM能够更好地帮助人类;
  2. 最近的研究表明,理解和生成结构化世界知识对LLM来说仍然具有挑战性。

    与以前的工作不同,以前的工作侧重于通过涵盖各种任务和学科知识来扩大评估广度以测试LLM的知识边界,我们更注重评估的“深度”,即对知识相关能力之间的内在联系进行建模并确保可靠的评估结果。受学习理论中人类认知过程的启发,如布鲁姆分类法,我们将评估的能力分为四个层次:知识记忆、知识理解、知识应用和知识创造。这种分类法有助于提供更具体、更有帮助的评估结果,详细说明被评估模型可能在哪些知识方面存在不足。它还有助于初步探索LLM和人类学习机制的异同。

    为了配合我们后面介绍的数据设计考虑,我们选择了19个任务,主要关注关于实体、概念和事件的世界知识。对于数据,我们获取已知的和不断发展的数据源。一些研究采用未发表或机器不可读的数据来降低测试数据被LLM学习的可能性。然而,考虑到LLM之间的激烈竞争,这些数据在不久的将来也可能被LLM训练。我们认为理想的方法是对新出现的数据进行评估并保持不断发展的基准,就像包括时间敏感的不断发展的数据的尝试一样。在 KoLA,我们每三个月举办一个新的比赛赛季。每个赛季,我们都会抓取并注释 500 篇最近发表的文章作为不断发展的数据。不断发展的数据源使我们能够

  1. 更公平地评估模型,即使某些模型可以快速更新其知识,从而展示其能力,以及
  2. 更好地跟踪模型开发。除了不断发展的数据外,我们还考虑 LLM 的已知数据,即所有模型都已学习的数据源。对已知数据的评估使我们能够 (i) 通过比较它们从相同训练数据中获得的不同知识来公平地比较 LLM 的学习效率,以及
  3. 通过比较 LLM 在已知数据和不断发展的数据上的表现来评估泛化能力。我们选择维基百科作为我们的已知数据源,因为它很常用。考虑到维基百科的局限性以及我们对不断发展的数据的注释能力,我们无法覆盖非常广泛的任务。

    对于评估标准,我们设计了一个对比评估系统,包括一个总体标准分数系统和一个自我对比知识创造指标。传统的基准测试分别报告不同任务的绝对指标。不同任务之间的分数不可比性使得观众难以直观地比较不同能力之间的熟练程度。此外,不同指标的敏感度各不相同,这可能会导致经验不足的观众误解数字差异所代表的能力差异。在 KoLA 主排行榜中,我们报告了不同任务的标准分数,这些分数由与其他评估的 LLM 相比的相对水平决定。这使得 KoLA 适用于更广泛的受众。有经验的观众仍然可以参考绝对指标(如果需要)。此外,评估知识创造尤其具有挑战性,因为它涉及区分正确创建的知识和知识幻觉。我们设计了一个自我对比指标来评估知识幻觉,通过对比在相同开端的情况下自由创建的 LLM 完成和基于知识的完成。该指标消除了写作风格的影响,重点关注生成的补全是否与实际呈现的知识一致。

    在 KoLA 的前两季中,我们评估了 28 个广泛使用的 LLM,包括 8 个 API 访问商业 LLM,例如 GPT-4和 Cohere-command,以及 20 个开源 LLM,包括 GLM-130B、LLaMa等。从实验结果中,我们得到了一些有趣的观察结果,例如较大的基础模型往往会记忆更多的知识,对齐释放了较大模型在高级能力方面的潜力,但可能会损害记忆,开源模型与商业模型相比表现出整体劣势。我们欢迎更多 LLM 参与 KoLA 评估,并鼓励为新一季的 KoLA 做出贡献。数据、排行榜、参与信息和支持工具在被接受后将公开。我们希望 KoLA 可以作为一种诊断工具,促进知识型 LLM 的发展,并帮助从业者选择 LLM。

KOLA 基准

    能力建模 在人工智能 (AI) 的背景下,知识一直被用来表示包含事实、事件和技能的信息 ,作为人工智能智能水平的指标。因此,提出了各种知识密集型任务来检查语言模型的知识相关能力。最近,LLM 的令人印象深刻的表现鼓励开发更全面的基准和广泛的人类受试者测试。认知能力分类法。面对如此庞大的评估数据集,我们主张考虑能力的分层和联系,而不是离散地组织它们或直接基于学科。几十年来,认知科学家也一直坚持这种观点,并产生了一系列认知学习理论。考虑到围绕高阶思维的持续争论,我们简化并选择了布鲁姆分类法中四个被广泛接受的过程来组织 KoLA 基准中的任务。

  1. 知识记忆(KM)旨在衡量模型忠实回忆已知事实的能力,例如先前的知识探测任务。
  2. 知识理解(KU)侧重于评估模型理解文本中底层知识的能力,例如传统的信息提取任务。
  3. 知识应用(KA)反映了代理运用知识完成推理和解决问题的能力。因此,该级别通过各种知识推理任务进行评估。
  4. 知识创造(KC)表示在已知事实的情况下创造新颖且合理知识的能力。这是通过知识的连贯性和正确性来评估的模型生成内容的评估。值得注意的是,评估不仅仅是评估生成质量(流畅度等)。

    数据源和选定任务 已知和不断发展的数据:评估 LLM 的一个共同关注点是训练数据的变化带来的公平性问题和潜在的测试数据泄露风险。为了最大限度地减少这些偏差,我们建议设计以下独特的数据源:

  • 已知数据源。Wikipedia2 是一个公认的高质量语料库,包含超过 660 万篇英文文章,自 BERT 以来已被许多预训练模型用于预训练,并被广泛纳入开放的预训练语料库。因此,我们认为假设每个 LLM 都在维基百科上进行过训练是合理的,并将其作为我们的已知数据源。考虑到许多 LLM 表示他们只能根据“2021 年之前的内容”提供答案,我们选择了 Wikidata 的一个高质量子集 Wikidata5M作为基础,它允许链接到 2019 年版的 Wikipedia 转储,从而能够选择或重建下游任务的数据集。
  • 不断发展的数据源。考虑到模型训练所需的时间,新出现的数据不太可能被 LLM 及时训练。因此,我们设计了一种不断发展的评估机制,该机制不断检索最近 90 天左右发布的网络内容作为数据源并在其上构建新的数据集。这种方法可以确保公平评估 LLM 在看不见的内容上的表现,以及它们是否“秘密地”涉及外部搜索等知识更新模块。每次更新(我们称之为 KoLA 的一季)都需要抓取至少 500 篇文章来支持构建测试集。对于本文报道的第一季,我们采用了两种数据:事实新闻 4 和虚构小说 5 。我们打算再坚持 4 季(约 1 年),以及时整合即将到来的顶级 LLM。我们期待持续发布的报告能够为相关研究人员提供进一步的支持。

    基于这两个数据源,我们最终在 KoLA 中筛选并构建了 19 个任务,如表 1 所示。为确保每个季节的注释质量和效率,我们在每个级别随机选择一个任务来注释新的进化评估数据集。对于现有的数据集,我们尝试确保大多数测试集不公开,这种严格的设置确保了高度的公平性。数据收集和任务构建细节见附录 C。下面我们简单介绍一下四个级别的任务。值得注意的是,由于数据分布和收集过程的限制,模型在进化数据上的绝对数值不一定注定低于已知数据上的绝对数值。

    知识记忆任务:我们遵循 LAMA通过探究 LLM 中的事实来评估知识记忆,但在我们的数据源上重新构建数据集。给定 Wikidata5M中的三元组,我们将其转换为具有关系特定模板的句子,并让 LLM 完成其尾部实体。此外,我们想探索 LLM 的知识记忆是否与训练频率相关。我们根据 Wikidata5M 中的实体在维基百科中出现的频率对其进行排序,从而创建了两个测试集:

  1. 高频知识。从出现频率最高的前 2,000 个实体中随机选择 100 个实体,并用它们的三元组构建数据;
  2. 低频知识。同样,我们从频率最低的实体中随机选择 100 个实体,并构建一个更具挑战性的评估集;
  3. 记忆测试(ETM)。

    从不断发展的数据源中的文章中,我们对其中显示的知识三元组进行注释,仅保留 100 个无法从以前可用的语料库中推断出来的三元组。知识理解任务:知识理解是通过 LLM 能否理解文本中各种类型的知识来评估的,包括概念、实体、实体关系、事件和事件关系。(2-1/2-2/2-3)概念探测采用 COPEN的三个探测任务(CSJ、CPJ、CiC)来评估模型对概念知识的理解。(2-4)命名实体识别利用 FewNERD 数据集,我们从中在我们的评估中随机选择 300 个示例。(2-5)关系提取从具有挑战性的文档级关系提取数据集 DocRED 中选择未公开的测试集。(2-6)事件检测采用精细注释的 MAVEN数据集的未公开测试集。(2-7)事件关系提取涉及来自 MAVEN-ERE的未公开测试集,该集包含 113k 个事件之间的共指、时间、因果和子事件关系的示例。(2-8)不断发展的理解测试 (ETU)。对于不断发展的数据中的文章,我们进行实体识别,并遵循与 DocRED 相同的关系模式来注释一个全新的测试集,该测试集包含来自 50 篇文章的 100 个关系实例。值得注意的是,除了进化测试外,其他数据集均基于维基百科文本。

    知识应用任务:知识应用能力通过 LLM 的多跳推理能力进行评估,特别是对世界知识的推理能力。这与最近的几项研究不同,这些研究涵盖了更一般的推理,例如数学推理。因此,KoLA 中包含以下基于维基百科的渐进式数据集:(3-1)HotpotQA是一个问答数据集,涉及大量由母语人士编写的自然语言问题,比较检查机器的能力、多跳推理等。然而,HotpotQA 的一个限制是有些问题可以通过捷径来回答。为了解决这个问题,(3-2) 2WikiMultihopQA确保问题不能通过手动设计的模板的捷径来解决,但它们的问题在语言上缺乏自然性。此外,(3-3) MuSiQue数据集同时解决了捷径和自然性的挑战。它的问题由现有数据集中的简单问题组成,最多有四跳的复杂推理。 (3-4) KQA Pro是一个大规模数据集,其问题相对复杂,允许对 LLM 的多跳推理进行更细粒度的评估,包括逻辑运算和修饰符。 (3-5) KoRC 是一个需要文本和知识库联合推理的数据集。 它与上述四个数据集不同,因为它需要隐式而不是显式推理。 (3-6) 应用能力演进测试 (ETA) 采用与 KoRC 相同的构建方法,在演进数据中的 350 个带注释知识三元组和 40 篇文章上生成 49 个问题。

    知识创造任务:作为布鲁姆认知分类法的最高级别,如何评估知识创造是一个长期存在的开放且具有挑战性的问题。知识创造能力在开放式生成任务中显而易见。传统的文本生成评估指标基于模型生成内容与人工编写参考文献之间的文本相似性,这不仅关注知识创造能力,还涵盖其他技能,例如文本风格和流畅性。理想情况下,应该聘请人类评估者来唯一评估模型生成的内容是否包含新颖且合理的知识。然而,手动评估各种开放领域知识是劳动密集型的、昂贵的,并且缺乏可扩展性。受基于知识的文本生成任务的启发,KoLA 提出了一种可行的自动评估协议,该协议专门将模型生成的知识与人类参考中的知识进行对比。

在这里插入图片描述
表 1:KoLA 中的任务(第 1 季和第 2 季)。粗体指标用于计算标准化分数。独家任务意味着他们的测试集是新开发的或由原作者赞助的,未公开披露。测试集和池对应于每个季节使用的测试实例和总体可用实例。

    首先,我们将生成范围限制为叙事文本,例如历史、新闻和小说。这是因为在生成叙事文本中创建的知识明确侧重于设想合理的后续事件并以合理的方式表达它们。如图 2 所示,然后我们对参考文本进行人工注释,以获得参考细粒度事件知识。注释的事件启用了专用的自对比指标(如下所述),该指标强调了生成内容中事件知识的质量。与包含许多其他因素的传统文本生成指标相比,这种方法可以有效地评估知识创造能力。我们对维基百科文本和不断发展的文章进行了注释,构建了两个评估数据集:(4-1)百科知识创造,基于 MAVEN 选择的叙述性维基百科文章和(4-2)开放知识创造,基于未见过的新闻和小说,作为创造的不断发展的测试(ETC)。表 1 列出了每个选定任务的特征和统计数据。有关注释过程和任务演示的更多详细信息分别在附录 D 中介绍。

    对比评估系统我们的对比评估系统包括基于相对模型比较的标准化总分和独特的自我对比指标,可以自动评估知识幻觉并增强生成评估。标准化总体评分。由于不同 KoLA 任务的指标无法比较且敏感度不同,经验较少的受众无法轻松地比较和解释结果,这在最近的 LLM 基准测试中也很普遍,例如 Big-Bench-Hard和 MMLU。因此,我们建议引入标准化分数以增强 KoLA 结果的适用性。具体而言,给定任务集 D = {di} |D| i=1 和评估模型集 M = {mj} |M| j=1,我们首先为每个任务选择最具代表性的指标,从而让我们计算模型 mj 在任务 di 上的性能得分 xij。然后可以计算标准化分数 z 为:zij = xij − µ  xi1, ..., xi|M|  σ  xi1, ..., xi|M| 
其中µ(·)和σ(·)表示平均值和标准差。随后,我们应用Min-Max缩放将所有结果调整到[0,100]的范围,进一步增强了跨任务分数的相关性和可读性。最终得分表示为:sij = 100 zij − min(z)max(z)− min(z),(2)
其中函数max(z)和min(z)对应于所有zij分数的最大值和最小值。

    自我对比指标。评估知识创造不仅要评估生成质量,更要评估生成的知识是否真实合理,即避免知识幻觉。我们为此开发了一个独特的自我对比指标,该指标通过对比由同一模型生成的两个完成来定义。 如图2所示,C表示给定的先前上下文,R表示人类书写的后续补全,K表示R中标注的事件知识。每个模型需要生成两个补全:(a)仅给定上下文C,生成一个补全T,这需要模型自由想象可能发生的事件,并且可能产生知识幻觉,如图2中的谈判事件;(b)给定上下文C和预知K,生成另一个补全Tk,这只需要模型合理地组合给定的事件。如果T和Tk表现出很强的相似性,则意味着该模型可以创建高度合理的事件,这些事件与人类提供的参考一致,并且知识幻觉较少。这种自我对比方法的显著优势在于,由于两个补全都是由同一个模型生成的,因此写作风格等知识创造之外的因素很可能保持一致,从而将其对评估的影响降至最低。此外,为了更全面地涵盖知识创造能力,防止模型忽略知识创造能力而导致评估崩溃过程(b)提示中的知识K,整体知识创造分数定义为多个对比的混合:在这里插入图片描述

    其中 avg (·) 表示平均值。函数 ∂ (·) 用来计算两个文本的相似度,在本文中我们采用了广泛使用的 Rouge-L (F1)。∂ (T, R) 是传统的文本生成指标。虽然它涵盖了广泛的知识创造能力(涵盖事件之外的多种知识类型),但它也包括与知识创造无关的不良因素,例如写作风格和文本流畅性。因此,我们添加了 ∂ (T, Tk) 和 ∂ (Tk, R) 来强调创造与事件相关的知识的能力,这对于生成叙述文本非常重要。∂ (T, Tk) 是新提出的自对比指标,关注生成的事件知识是否合理。 ∂ (Tk, R) 的灵感来自基于知识的生成任务。它反映了创造有关事件之间关系的知识的能力,这是将给定事件合理地组合成故事所必需的。例如,图 2 中的 Tk 意味着西蒙·德·蒙福特的死亡导致叛军在战斗中失败,而这是一种与 R 中的叙述不一致的幻觉因果关系。

在这里插入图片描述

实验评估

    在 KoLA 的前两季中,我们评估了两类 LLM:(1)开源模型,包括 GPT-J (6B) 、GPT-JT (6B) 、GPT-NeoX (20B)、BLOOM (7B) 、T0++ (11B)、LLaMa (65B) 、GLM (130B)、UL2 (20B) 、FLAN-T5 (11B) 、FLAN-UL2 (20B) 、Alpaca (7B)、ChatGLM (6B)、Dolly-v2 (12B)、RedPajamaInstruct (7B)、Tulu (7B)、Vicuna (13B)、 a2-chat (7B)、ChatGLM2-32k (6B)、Internlm-chat-8k (7B); (2)API 服务:GPT-3 curie v1 (6.7B)6 和 davinci v1 (175B)、InstructGPT curie v1 (6.7B*)6 和 davinci v2 (175B*)、ChatGLM (130B)、Cohere-command (52.4B)7 、J2-Jumbo-Instruct (178B*) 、GPT3.5-turbo6 和 GPT-4 。(*)表示大小尚未确认。整体表现。我们在表 2 和表 3 中报告了所有模型的标准化分数,其中“—”表示由于输入长于模型上下文长度而导致结果不可用。所有结果均来自第二季(2023 年 9 月),与第一季(2023 年 6 月,附录 F)排名的比较显示在“排名”栏中。尽管不同层级的排名总体一致,但我们仍然可以从结果中得到一些有趣的发现:

  1. 对于没有对齐或指令调优的模型(例如 GPT-J 和 BLOOM),知识记忆(KM)的排名与模型大小之间存在很强的相关性(Spearman 系数为 0.79)。这表明模型大小对记忆见过的知识有明显的正向影响,这证实了先前研究中的一些观点。
  2. 经过指令调优后的模型,高级能力与模型大小的相关性显著提升(以 KA 为例,其 Spearman 系数从 0.02 变为 0.53)。这表明对齐释放了 LLM 在高级能力方面的更大潜力。然而,大小与低级 KM 性能之间的相关性呈现下降趋势(0.34),这可能证明了广泛讨论的“对齐税”。
  3. 与 GPT4 和 GPT-3.5-turbo 等商业闭源模型相比,开源模型的性能仍然存在明显差距。开源模型的平均 z 分数为 -0.29,低于整体平均水平。将第二季的结果与第一季的结果进行比较,大多数开源模型的排名都有所下降。这表明从长远来看,静态开源模型难以与可能持续更新的商业模型保持相当的水平。开源社区应倡导更强有力的合作,以支持对未来研究目的至关重要的更大、最新的模型。

设计分析。我们进一步讨论了 KoLA 设计因素带来的几个新观察结果。
在这里插入图片描述在这里插入图片描述
    首先,各个层级内的任务之间具有较高的相关性,表明LLM的能力确实具有某种内在的层级结构。知识记忆(KM)层级与其他层级表现出显著的相关性,尤其是与理解层级中的概念任务(2-1、2-2、2-3)以及应用层级中的推理任务(3-1至3-5),这表明这些高级任务严重依赖于知识记忆。此外,为了对LLM在高阶认知任务中的能力进行更分离的评估,仍然建议设计与预训练语料库表现出较大差异的任务,以减轻来自数据的潜在偏差。

    其次,模型在演化和非演化任务上的结果显示出明显的线性相关性,表明我们构建的演化数据集的可靠性。已知数据和演化数据之间的性能差距在较浅的层次(KM、KU)中更为明显,而在较高级任务(KA、KC)中则不那么明显。独立同分布和分布外演化设置之间的性能收敛表明模型的泛化能力可能得到增强,可能支持关于模型获得了超越简单数据拟合的发散和推理能力的观点。第三,我们对知识创建任务中的结果进行手动注释(附录 F.1 了解有关注释设置和结果的更多详细信息),其中每个注释者都需要阅读上下文 C 和预知 K,然后从两个方面评估模型的输出 T:整体质量和忠实度。评分按 1(最差评分)到 5(最好评分)的等级分配。我们计算了手动注释结果与§2.3中介绍的指标之间的Spearman相关性。我们发现,自我对比指标∂(T,Tk)与创作内容的忠实度之间存在显着的相关性(0.61),而从等式(3)中的整体指标x中删除自我对比指标会导致与人类判断的整体质量的相关性显着下降32%。我们相信这个指标可以为未来对生成能力评估的探索做出贡献。

在这里插入图片描述

结论和未来工作

    本文介绍了KoLA,这是一个精心设计的面向知识的LLM评估基准。我们设计了一个认知能力分类法以获得更有用的诊断结果,采用已知和不断发展的数据源以提高公平性,并采用对比指标以提高适用性。在 KoLA 的第一季中,我们评估了 28 个公开和商业的 LLM,并得到了一些有趣的发现,例如更大的模型往往会记住更多的知识,而对齐可以释放更高级能力的潜力,但可能会损害低级知识的记忆等。在未来,我们将继续举办更多季的 KoLA,以促进知识型 LLM 的发展,帮助选择开发知识相关应用程序的主干,并通过不断发展的评估跟踪 LLM 的发展。KoLA 将始终欢迎开放的参与和贡献。

道德声明

    在本节中,我们讨论了有关数据构建的道德考虑因素,并将更广泛的影响留到附录 A.2。 (1) 数据风险控制。对于收集到的演化数据源,我们过滤掉了不适合向普通观众展示的内容,相关细节在附录C.1中列出。七位作者手动检查了所有新构建的演化测试数据集以及KoLA中包含的所有先前发布的数据集的随机样本。没有发现任何个人身份信息、歧视性内容、露骨、暴力或冒犯性内容。(2)注释者待遇和同意。

    我们聘请众包注释者来注释演化测试数据并进行人工评估以创造知识。详细信息在附录C.2中介绍。我们与所有注释者签订了工作合同,并根据双方商定的工资标准和工作时间提供报酬。所有就业安排均符合当地法规。(3)版权。我们已知的数据来源是维基百科,它在CC BY-SA 3.08下获得许可,允许免费用于研究。对于KoLA中包含的所有先前发布的数据集。我们的演化数据源包含公开新闻和小说。新闻数据来自《卫报》9,我们严格遵守条款和条件10 访问这些数据。小说数据来自同人小说档案网站 Archive of Our Own (AO3)。尽管 AO3 数据已在之前的一些作品中使用,但其版权状态仍存在一些模糊性。我们认为使用 AO3 是恰当的,因为:

  • AO3 对数据抓取持开放态度12。
  • 我们承诺 KoLA 将始终保持非商业和非营利性,并且我们不会重新分发抓取的数据(我们的平台仅提供样本)。

    根据 AO3 的运营商 Organization for Transformative Works 提供的描述13,此类使用在美国版权法的背景下属于合理使用。可重复性声明 为了提高可重复性,我们在附录 C 中提供了有关数据收集的详细信息,在附录 D 中提供了所有使用的任务说明,并在附录 E 中提供了实验细节。所有任务的评估源代码和数据样本都作为补充材料提交。未来几季的结果将在 Github 和我们的平台网站上展示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/400636.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Grok-2的Beta版发布

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

图论------Bellman-Ford算法求单源最短路径的优化

目录 前情回顾: 画图分析: 具体代码: 前情回顾: 大家是否还记得我们之前讲过的Bellman-Ford算法,如果忘记的话可以点击链接去复习一下:图论------贝尔曼-福德(Bellman-Ford)算法-…

8月13日学习笔记 LVS

一.描述以及工作原理 1. 什么是LVS linux virtural server的简称,也就是linxu虚拟机服务器,这是一个 由章文嵩博士发起的开源项目,官网是 http://www.linuxvirtualserver.org,现在lvs已经是linux内核标 准的一部分,使用lvs可以达…

杭州网络安全等保测评——数据守护者的金盾牌️

在数字化转型疾驰的杭州,网络疆域的每一次拓展都伴随着安全风险的增长。如何在创新与安全之间找到黄金平衡点?《杭州等保测评:守护网络安全的坚实屏障》一文,深入探索这座智慧城市如何依托等保测评体系,构建起一道道安…

【已EI检索会议】第五届新材料与清洁能源国际学术会议(ICAMCE 2024)

重要信息 会议官网:2024.icceam.com 接受/拒稿通知:投稿后1周内 收录检索:EI, Scopus 会议召开视频 见刊封面 EI检索页面 Scopus 检索页面 相关会议 第六届新材料与清洁能源国际学术会议(ICAMCE 2025) 大会官网&…

机器学习常用包numpy篇(二)数组属性与基本操作

目录 前言 数组属性 1.数组转置 2.数组元素的数据类型 3.数组元素的虚部 4.数组元素的实部 5.数组包含的元素个数 6.数组元素的字节数 7.数组元素的总字节 8.数组维度 9.数组形状 10.每个维度中步进的字节数组 11.数组维度和形状 数组基本操作 1.重设形状 2.数…

【vue3|第23期】Vite + Vue3: 深入理解public和assets文件夹的作用与使用

日期:2024年8月14日 作者:Commas 签名:(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释:如果您觉得有所帮助,帮忙点个赞,也可以关注我,我们一起成长;如果有不对的地方&#xf…

GBJ406-ASEMI无人机专用GBJ406

编辑:ll GBJ406-ASEMI无人机专用GBJ406 型号:GBJ406 品牌:ASEMI 封装:GBJ-4 批号:2024 现货:50000 最大重复峰值反向电压:600V 最大正向平均整流电流(Vdss):4A 功率(Pd)&am…

“从零开始的HTML 表格”——WEB开发系列09

HTML 表格是一种用于在网页上组织和显示信息的结构性元素&#xff0c;它能够将数据以行和列的形式呈现&#xff0c;帮助用户更清晰地理解数据关系。表格在展示统计数据、产品列表、日程安排等方面非常实用。 一、HTML 表格的基本结构 HTML 表格用 ​​<table>​​ 标签来…

day36——homework

二、基于UDP的TFTP文件传输 1&#xff09;tftp协议概述 简单文件传输协议&#xff0c;适用于在网络上进行文件传输的一套标准协议&#xff0c;使用UDP传输 特点&#xff1a; 是应用层协议 基于UDP协议实现 数据传输模式 octet&#xff1a;二进制模式&#xff08;常用&am…

MySQL源码安装与MySQL基础学习

1、安装MySQL ​ 本次安装使用的是绿色硬盘版本&#xff0c;无需额外安装依赖环境&#xff0c;比较简单 修改相关配置文件&#xff1a; 设置环境变量&#xff0c;声明/宣告MySQL命令便于系统识别&#xff1a; 初始化数据库&#xff1a; 设置系统识别&#xff0c;进行操作&…

Java基础之隐式类型转换

类型转换 基本数据类型表示范围大小排序&#xff1a; 在变量赋值及算术运算的过程中&#xff0c;经常会用到数据类型转换&#xff0c;其分为两类&#xff1a; 隐式类型转换 显式类型转换 1 隐式类型转换 情形1&#xff1a;赋值过程中&#xff0c;小数据类型值或变量可以直…

八股文学习总结

八股文学习总结 文章目录 八股文学习总结一、总体概况二、Java基础三、集合四、JUC五、JVM六、MYSQL七、Redis八、MQ九、计网十、OS十一、附上我记的笔记 一、总体概况 八股文也看了好多天了&#xff0c;我对八股文基本上考察哪些点也都有了印象&#xff0c;主要的分为Java基础…

Spring-AOP实现后置、返回、异常和环绕通知

后置通知 在切入点的目标方法执行后&#xff08;无论有异常抛出没的&#xff09;&#xff0c;都会执行这个通知方法! 如果想要在通知方法里访问到目标方法返回的结果&#xff0c;可以用返回通知 返回通知 是在目标方法执行之后没有异常&#xff0c;并且返回结果后才执行通知…

【自用】Python爬虫学习(七):selenium网页自动化操作

Python爬虫学习&#xff08;七&#xff09; selenium介绍selenium基础用法selenium其他自动化操作selenium动作链与iframe的处理selenium无可视化界面与反检测实现 selenium介绍 selenium是一个广泛使用的开源自动化测试框架&#xff0c;主要用于Web应用程序的功能测试。它支持…

机器学习速成第二集——监督学习之分类(理论部分)!

目录 分类算法的种类 分类问题的应用场景 模型选择与评估 结论 如何在不同数据集中选择最适合的监督学习分类算法&#xff1f; 监督学习中集成模型与单一模型相比有哪些具体的优势和劣势&#xff1f; 优势&#xff1a; 劣势&#xff1a; 在处理高维稀疏数据时&#xf…

Kubernetes-K8S

Kubernetes由于单词太长&#xff0c;省略掉中间8个字母简称为K8S。它介于应用服务和服务器之间。能够通过策略协调和管理多个服务&#xff0c;只需要一个YAML文件配置。定义应用的部署顺序等信息&#xff0c;自动部署应用到各个服务器&#xff0c;还可以自动扩容缩容。 架构原理…

K8S资源之Service

概念 将一组 Pods 公开为网络服务的抽象方法。 ClientIP 模型 集群内访问类型。 命令行 # 暴露端口 kubectl expose deployment my-dep-nginx --port8000 --target-port80Yml文件 apiVersion: v1 kind: Service metadata:labels:app: my-dep-nginxname: my-dep-nginx spe…

【张】#12 enum 枚举

enum 枚举定义格式&#xff1a; enum <类型名> {<枚举常量表> }; 枚举其实就是一个整数 enum example {Aa,Bb10,Cc //给Bb赋值为10后&#xff0c;Cc的值会变成11 }; 枚举变量只能使用枚举值&#xff0c;枚举可以赋值给整型&#xff0c;整型不能赋值给枚举 #inc…

Django | 从中间件的角度理解跨站请求伪造(Cross-Site Request Forgey)[CSRF攻击]

文章目录 切入点案例测试views.py测试代码templates模板下的html文件配置路由运行服务 出现CSRF报错解决CRSF报错再次运行服务 查看结果 切入点 某些恶意网站上包含链接、表单按钮或者]avaScript,它们会利用登录过的用户在浏览器中的认证信息试图在你的网站上完成某些操作 Gj…