探索开放资源上指令微调语言模型的现状

人工智能咨询培训老师叶梓 转载标明出处

开放模型在经过适当的指令调整后,性能可以与最先进的专有模型相媲美。但目前缺乏全面的评估,使得跨模型比较变得困难。来自Allen Institute for AI和华盛顿大学的研究人员们进行了一项全面的研究,探索了不同公开指令数据集对语言模型性能的影响。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987 

指令调整及其数据资源探索

在自然语言处理领域,指令微调是一种优化预训练大模型的方法,使其能够更准确地理解和响应人类以自然语言形式提出的请求。这一过程特别关注那些在请求中明确包含任务指示的情境,例如在输入提示中直接包含任务指令。指令微调是实现模型泛化至新场景、无需特定任务训练的关键步骤,同时也为非专业人士提供了与模型自然互动的可能。

指令微调的成功依赖于两大核心要素:首先,需要一个强大的预训练语言模型,该模型通过大规模网络预训练积累了丰富的知识储备;其次,需要一个多样化且具有代表性的指令数据集,以便模型能够适应各种潜在的下游应用场景。本研究围绕这两个要素展开,并对相关的开放资源进行了深入探讨。

研究中尝试收集了多种风格的数据集,这些数据集包括但不限于:由研究人员基于现有NLP数据集创建的(如SuperNI、Flan V2)、专门为指令微调目的由人类编写的(如Dolly、Open Assistant 1)、由专有模型生成的(如Self-Instruct、Unnatural Instructions、Alpaca、Baize、GPT4-Alpaca),以及包含用户共享提示和模型生成完成的(如ShareGPT3)。还有针对特定技能构建的数据集,例如CoT专注于思维链的培养,Code-Alpaca专注于代码生成。Table 1为用于指令调优的数据集的详细信息。

在本研究中,主要使用了LLaMa系列预训练模型,这些模型的参数量从6.7B到65B不等。研究初期使用了LLaMa-1模型,随后在最终版本中引入了LLaMa-2模型,后者虽然参数数量相似,但接受了更多的训练,代表了社区可用的最大、最高质量的预训练模型。研究也考虑了与LLaMa 6.7B模型大小相当的OPT和Pythia模型,以考察不同基础模型对指令微调效果的影响。

为了统一不同数据集的风格和格式,研究中将所有数据集格式化为聊天机器人风格的模式。这种格式允许将用户与语言模型之间的任意轮次交互适配到一个输入序列中,并与因果语言模型一起编码。通过添加特殊的标记来区分用户话语和助手响应,并在每个助手输出的末尾添加了文本结束标记,以确保在推理时模型能够适时停止响应。Figure 1为数据格式化的示例。

在训练过程中,损失仅在助手标记后的令牌和下一个用户标记之前计算。一个指令数据集被视为由多个包含多个轮次的元组组成,每个元组包括用户提示和期望的输出。对于大多数情况,模型被训练为给定用户提示输出相应的响应。然而,在处理对话数据集时,模型被训练为基于部分对话历史预测后续的响应。训练过程中采用了教师强制和损失掩码的技术,确保模型能够有效学习。

现有研究表明,增加指令的多样性可以有效提升指令微调的性能。基于这一动机,研究中创建了两种数据集的混合:人类数据混合物和人类+GPT数据混合物。TÜLU是在人类+GPT数据混合物上训练的LLaMa模型,旨在通过结合多种资源进一步提升指令微调的效果。

评估与结果分析

评估体系包括了对事实知识、推理能力、多语言性、编码能力、开放式指令遵循能力以及安全性的测试。

  • 事实知识:使用Massive Multitask Language Understanding数据集(MMLU)来衡量模型的事实知识。MMLU包含57个不同主题的问题,难度从基础到专业级别不等,其多项选择格式适合探测模型的知识,而不必担心生成的开放性。
  • 推理能力:使用Grade School Math数据集(GSM)的测试分割来评估模型的数学推理能力。同时采用Big-Bench-Hard(BBH),它包含23个来自Big-Bench的挑战性任务,以评估模型的一般推理能力。
  • 多语言性:使用TyDiQA,这是一个涵盖11种语言类型多样的语言的多语言问答基准,用于测试模型处理非英语文本的能力。
  • 编码能力:使用HumanEval数据集来评估模型从文档字符串生成功能正确程序的能力。为了避免与人类评估的歧义,本文中将其称为Codex-Eval。
  • 开放式指令遵循能力:评估模型处理来自真实用户的多样化和开放式请求的能力。例如,ShareGPT数据集包含了用户请求编程帮助、简历格式化技巧、教育角色扮演、发音建议、同人小说写作等多种实例。
  • 安全性:使用ToxiGen来衡量模型在被提示时产生有毒语言和仇恨言论的程度。同时采用TruthfulQA来衡量模型在提供有用信息时避免产生已知错误信息的能力。

为了评估开放式指令遵循能力,作者们采用了AlpacaEval中引入的基于模型的方法。测试集包含805条指令,这些指令来自不同的评估集,如Self-Instruct、Open Assistant、Anthropic的帮助评估、Vicuna评估和Koala评估。

使用模拟的GPT-4注释器,计算测试模型与Davinci-003产生的输出相比,由GPT-4判断的胜率。为了使分数与AlpacaEval排行榜上的分数直接可比,作者们使用了AlpacaEval的代码库和提示。

为了进一步测试开放式生成的质量,作者们进行了基于332条指令的人类评估,这些指令结合了Self-Instruct评估集和Vicuna评估集。

人类评估要求评估者基于几个维度判断模型输出的可接受性,包括输出是否孤立地可接受、是否回答了查询中的请求、是否有重大错误以及是否没有重复信息。

Table 3 展示了不同指令调整数据集对模型性能的影响。结果表明,不同的数据集在不同方面表现优异,而数据集的混合使用在平均性能上表现最佳。例如,CoT 数据集在数学推理(GSM)和编码(Code-Alpaca)任务上特别有帮助。这表明,为了在特定任务上取得成功,需要在训练集中充分代表这些任务。此外,结合多个数据集通常能够在基准测试中获得最佳的整体性能。

Table 4 展示了在Human+GPT数据混合物上训练后不同基础模型的性能。结果显示,使用LLAMA作为基础模型在所有评估设置中表现最佳,这可能是因为LLAMA在预训练时使用了更多的token。这表明,使用更大(或潜在更高质量)语料库预训练的模型更适合作为指令调整的基础模型。

作者们分析了表1中列出的指令数据集如何贡献于模型能力。他们使用评估套件评估了在这些数据集上训练的LLaMa 13B模型。Table 5 展示了TÜLU和其他训练模型与原始LLAMA模型以及最先进的专有模型在评估设置中的性能对比。结果表明,指令调整为所有大小的LLAMA模型带来了显著的好处,而较小的模型从指令调整中受益最大。

作者们比较了在Human+GPT数据混合物上训练的模型(TÜLU模型)在所有LLAMA大小上的性能。他们发现,尽管TÜLU 65B的性能令人印象深刻,但在所有评估设置中,它仍然落后于ChatGPT和GPT-4,这与之前声称使用这些开放资源训练的模型可以匹配ChatGPT的说法相矛盾。

作者们评估了模型在ToxiGen和TruthfulQA上的表现(Table 6),以衡量不同数据集可能导致生成有毒语言或错误信息的程度。他们发现,使用GPT源数据训练的模型产生的有毒生成物比GPT本身要少;TruthfulQA的性能并没有随着模型大小的增加而提高。

观察模型在AlpacaEval中的胜率发现,鼓励长而多样化生成的数据集表现最佳。例如,ShareGPT 在所有模型大小上始终表现最佳,包括在包含ShareGPT的数据混合物上训练的模型。这表明,尽管模型偏好评估很重要,但它并不能全面评估这些模型。因此,模型偏好评估应该只作为更大、更全面的评估设置的一部分。

人类评估结果与AlpacaEval和基于基准的评估大体一致:所有评估都显示65B TÜLU优于7B TÜLU,这表明使用较大的基础模型很重要,而且65B TÜLU与ChatGPT之间的性能差距仍然不小。

研究结果表明,使用强大的基础模型至关重要,结合数据集在平均性能上表现最佳,但目前最强的开放模型尚未达到ChatGPT或GPT-4的水平。

论文链接:https://arxiv.org/pdf/2306.04751

项目链接:GitHub - allenai/open-instruct 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/466432.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

搜维尔科技:【应用】Xsens在荷兰车辆管理局人体工程学评估中的应用

荷兰车辆管理局(RDW)通过数据驱动的人体工程学评估,将职业健康和安全放在首位。 关键信息 01 改进人体工程学评估:RDW使用Xsens动作捕捉和Scalefit Industrial Athlete进行精确、实时的人体工程学评估,识别并降低与…

文件系统和日志管理 附实验:远程访问第一台虚拟机日志

文件系统和日志管理 文件系统:文件系统提供了一个接口,用户用来访问硬件设备(硬盘)。 硬件设备上对文件的管理 文件存储在硬盘上,硬盘最小的存储单位是512字节,扇区。 文件在硬盘上的最小存储单位&…

大众汽车合肥社招入职笔试测评SHL题库:综合能力、性格问卷、英语口语真题考什么?

大众汽车合肥社招入职笔试测评包括综合能力测试、性格问卷和英语口语测试。以下是各部分的具体内容: 1. **综合能力测试**: - 这部分测试需要46分钟完成,建议准备计算器和纸笔。 - 测试内容涉及问题解决能力、数值计算能力和逻辑推理能力。 -…

Python进阶之IO操作

文章目录 一、文件的读取二、文件内容的写入三、之操作文件夹四、StringIO与BytesIO 一、文件的读取 在python里面,可以使用open函数来打开文件,具体语法如下: open(filename, mode)filename:文件名,一般包括该文件所…

UE5.4 PCG 自定义PCG蓝图节点

ExecuteWithContext: PointLoopBody: 效果:点密度值与缩放成正比

Transformer和BERT的区别

Transformer和BERT的区别比较表: 两者的位置编码: 为什么要对位置进行编码? Attention提取特征的时候,可以获取全局每个词对之间的关系,但是并没有显式保留时序信息,或者说位置信息。就算打乱序列中token…

Apache Commons Collections 反序列化漏洞

文章目录 前言一、漏洞爆出二、复现环境java集合框架问题JVM反射 三、Apache Commons Collections漏洞原理≤3.2.1CC关键类调用链路POC构造思路POC 前言 Apache Commons Collections是一个扩展了Java标准库里的Collection结构的第三方基础库,它提供了很多强大的数据…

正则表达式1 re.match惰性匹配详解案例

点个关注 re.match() re.match() 函数尝试从字符串的开头开始匹配一个模式,如果匹配成功,返回一个匹配成功的对象,否则返回None。大小写区分,内容匹配不到后面的,只能匹配一个,不能有空格(开头匹配&#…

gov企业征信系统瑞数6vmp算法还原

URL aHR0cHM6Ly9zZC5nc3h0Lmdvdi5jbi8今天再来逆向下国家企业征信系统,这个站很卡,兄弟们你们轻点爬,我刷以下页面就转好久的圈圈,这个站两层防护,一层加速乐,一层瑞数,貌似还有极验验证码防护…

代码随想录算法训练营Day55 | 图论理论基础、深度优先搜索理论基础、卡玛网 98.所有可达路径、797. 所有可能的路径、广度优先搜索理论基础

目录 图论理论基础 深度优先搜索理论基础 卡玛网 98.所有可达路径 广度优先搜索理论基础 图论理论基础 图论理论基础 | 代码随想录 图的基本概念 图的种类 大体分为有向图和无向图。 图中的边有方向的是有向图: 图中的边没有方向的是无向图: 图…

【自学笔记】神经网络(1)

文章目录 介绍模型结构层(Layer)神经元 前向传播反向传播Q1: 为什么要用向量Q2: 不用激活函数会发生什么 介绍 我们已经学习了简单的分类任务和回归任务,也认识了逻辑回归和正则化等技巧,已经可以搭建一个简单的神经网络模型了。 …

详解Python面向对象程序设计

Python面向对象程序设计 1,初识类和对象2,类的定义和使用3,构造方法4,常用的类内置方法4.1,字符串方法:__str__ 4.2,是否小于:__lt__4.3,是否小于等于:__le__…

超级大项目招标:1000台AGV,12月13日截至

导语 大家好,我是社长,老K。专注分享智能制造和智能仓储物流等内容。 近期,一个重磅招标项目引发业界广泛关注:焦作机器人应用产业研究院发布总额高达11380万元的机器人采购项目,其中包括1000台AGV(无人叉车…

内部知识库:优化企业培训流程的关键驱动力

在当今快速变化的商业环境中,企业培训的重要性日益凸显。内部知识库作为整合、管理和分享企业内部学习资源的关键工具,正逐步成为优化企业培训流程的核心。以下将探讨内部知识库如何通过多种功能,助力企业提升培训效率、质量和员工满意度。 …

宏集Cogent DataHub: 高效实现风电场数据集中管理与自动化

01 案例概况 一家跨国电力公司使用宏集Cogent DataHub软件,在美国西南地区建立起风电场的集中控制和数据采集系统。该系统整合来自不同风力涡轮机的 OPC 服务器数据,并确保数据安全、实时的上传至中心 SCADA 系统和 Pi 数据库。这一解决方案实现了与现有…

全星魅 北斗手持终端:重塑户外通信与导航新体验

在当今这个信息高速发展的时代,户外探险、应急救援、野外作业等领域对于通信设备的要求越来越高。QM570B北斗手持终端,作为一款集成了多项尖端技术的智能设备,以其卓越的性能和丰富的功能,为户外工作者提供了前所未有的通信与导航…

pycharm小游戏贪吃蛇及pygame模块学习()

由于代码量大,会逐渐发布 一.pycharm学习 在PyCharm中使用Pygame插入音乐和图片时,有以下这些注意事项: 插入音乐: - 文件格式支持:Pygame常用的音乐格式如MP3、OGG等,但MP3可能需额外安装库&#xf…

【harbor】离线安装2.9.0-arm64架构服务制作和升级部署

harbor官网地址:Harbor 参考文档可以看这里:部署 harbor 2.10.1 arm64 - 简书。 前提环境准备: 安装docker 和 docker-compose 先拉arm64架构的harbor相关镜像 docker pull --platformlinux/arm64 ghcr.io/octohelm/harbor/harbor-regist…

【系统集成项目管理工程师教程】第13章 监控过程组

13.1控制质量 主要输入 项目管理计划(质量管理计划)、项目文件(经验教训登记册、质量测量指标、测试与评估文件)、批准的变更请求、可交付成果、工作绩效数据。 主要工具与技术 数据收集(核对单、核查表、统计抽样、问…

水资源遥测终端机助力灌区信息化建设

随着社会的不断进步和人口数量的持续增加,水资源的管理和合理利用变得愈发关键。为了确保水资源能够得到科学的管理和高效的利用,智慧水务信息化建设已经成为当前社会面临的一项重要任务。在这一过程中,水资源遥测终端机扮演着至关重要的角色…