微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型...

379abdd9b1f7ba631a38948978bfbfc1.jpeg

来源:AI前线

整理:核子可乐,褚杏娟  

Chatbot Arena 等排行榜已经反复证明,数十亿美元支撑起来的 ChatGPT 仍然是聊天机器人领域无可争辩的王者。而人们只能调用其 API ,无法私有化部署,无法自己训练调整。因此,大家现在热衷于用开源大模型来构建 AI 聊天机器人,希望能在性能层面达到甚至超越 ChatGPT 等专有模型的水平。

近期,微软出人意料地发布了一个只有 13 亿参数但具有大模型推理能力的开源小模型 Orca,它使用创新的训练方法,成为首位敢于同专有模型叫板的挑战者。而且,Orca 的规模仅是其竞争对手的几十分之一(甚至可能只相当于 GPT-4 的几百分之一)。令人难以置信的是,Orca 在某些场景下甚至表现更好,而且完全碾压迄今为止所谓最强开源模型 Vicuna。

论文地址:https://arxiv.org/pdf/2306.02707.pdf

16eb82c1eff31bf0748f80c80e8e48a3.jpeg

那么,Orca 究竟是怎么做到的?

新的训练方式:巧劲胜于蛮力

在说起 AI 模型训练时,资金投入基本已经成为首要前提。具体来讲,谈到模型中的几十亿参数,这背后的涵义包括:

  • 光是收集训练数据就要花上几百万美元;

  • 基础模型的训练还要再花上几百万美元;

  • 模型的微调也可能花费几十万美元;

  • 更不要说人类反馈强化学习(RLHF)。如果公司单季度收入达不到数十亿美元的量级,这个环节最好碰都别碰。

所以说起“大语言模型”的竞逐,其实全世界有资格参与进来的也不过四、五家公司。

因此,为了在性能层面跟 ChatGPT 等大体量专有模型相对抗,研究人员别无选择,只能选择以巧劲破解对方的财力。而在生成式 AI 领域,所谓的“巧劲”正是“蒸馏”(distillation)。

简单来说,蒸馏就是选位优秀的同志,再把它的响应能力作为小模型的学习素材。为什么要这么干?非常简单:ChatGPT 虽然拥有数十亿个参数,但只有“少数”参数真正重要。从原理层面来讲:

  • 我们必须先让模型拥有足够多的参数,才能保证其掌握现实世界中的种种复杂表征。

  • 这样做的结果就是,大部分模型中的大部分参数始终处于未使用状态。

研究人员意识到这个现实问题后,得出了以下结论:假设 GPT-4 这样的先进模型未来仍须以体量增长作为必要条件,那在拥有了训练得到的大模型之后,能不能再用一个比其小得多的模型简单重现大模型的部分或者全部特性?

换句话说,在引导 AI 模型学习现实情境时,能不能先用大语言模型完成其中最繁重的“模式提取”任务,再让它们作为“老师”指导那些体量较小的模型?

答案是可以。蒸馏的过程就是这样一种 AI 学习方法,以大体量模型为模板训练小体量模型。所以开源社区的最佳 AI 聊天机器人开发流程基本可以概括为:

  • 对大语言模型(教师)进行采样,以构建{用户指令,输出}的查询数据集。这里常见的选项当然是 ChatGPT。

  • 接下来,选择一个较小的模型(参数量大约在 5 亿到 150 亿之间)作为“学生”。

  • 学生的任务就是尽量减少自身输出与教师输出间的差异,学习它、模仿它。

  • 这样,小体量模型就能够掌握教师的风格并输出类似结果,并把训练和运行成本控制在更低的水平。

这样新的先进模型就此诞生,且成本仅为大模型的百分之一。听起来不错,但现实世界显然没那么美好。

虽然这些模型能够有效学习教师的风格和语言连续性(例如 Vicuna 或 Alpaca),但却往往无法掌握对方的强大推理能力。也就是说,在对复杂任务做出评估时,其表现会远逊于自己的老师。没错,是“远远”逊于。

Orca 碾压开源模型,

赶超 ChatGPT

现在,大多数开源模型的性能其实被故意夸大了。Vicuna、Alpaca 等开源模型的出色性能,可能是研究人员精心挑选的结果。直到现在,它们在推理基准测试上的表现仍一言难尽。

例如,虽然 Vicuna 在衡量复杂任务的基准测试中,已经能在风格和语言连续性方面达到 GPT-4 的 89% 左右,可一旦面对七步逻辑推演等挑战,双方的差距就会扩大到令人尴尬的 5400%。换句话说,这时 GPT-4 的性能达到 Vicuna 的 55 倍。

Orca 的研究人员意识到了这个问题,并努力做出了改进。在 Big-Bench Hard 上使用零样本提示的性能测试中,括号内的 2900% 代表 Orca 相对 Vicuna 的改进程度。

38cb5f9b96541d7eb0d150e00ccbdf39.jpeg

Orca 在所有任务上的综合表现略好于 ChatGPT,但明显落后于 GPT-4,比 Vicuna 高出 113%。与 AGIEval 的结果类似,Vicuna 在此基准测试的复杂推理任务上表现不佳。Orca 虽然明显优于 Vicuna 且略优于 ChatGPT,但平均性能为 49.7%,落后于 GPT-4 26%。

测试中,Orca 在时间序列(时间推理)、导航(遵循导航指令)、彩色物品(识别给定上下文的对象颜色)方面分别优于 ChatGPT 102%、3.6% 和 1.7%。Orca 在因果判断任务上表现出色,性能与 GPT-4 相当,同时超过 ChatGPT 4.7%。在检测翻译错误上,Orca 和 ChatGPT 水平差不多。Orca 在需要各种知识的任务(例如体育、艺术家、幽默等)方面表现不如 ChatGPT,但在电影推荐方面表现更好。

在 Web of Lies 测试中,Orca 甚至把 GPT-4 也斩落马下,性能比这套体量百倍于自身的明星模型还高出 3%。Vicuna 自然也不在话下,但 Orca 的得分比其高出 24.3%。

20c9869eb9e657a02371c77c04865580.jpeg

来源:Microsoft (Web of lies example)

令人印象深刻的是,在以上所有任务中,Orca 的平均性能已经超越 GPT-3.5。这不仅是开源模型的一个新里程碑,同时也稳定将性能保持在 Vicuna 的两倍以上。

虽然在大多数情况下,Orca 仍落后于无可争议的王者 GPT-4,但这种以小搏大、碾压其他开源同侪并偶尔超越老大哥的表现,究竟是怎么实现的?

Orca 研究人员做了什么

当前小模型通过指令微调来模仿大模型的方式主要存在以下问题:

  • 指令简单且缺乏多样性。

  • 收集的数据规模小,任务缺乏多样性。

  • 模仿信号有限,只能通过老师模型生成的 <query、response> 进行模仿学习。

  • 评估标准较弱。用大模型对小模型进行指令调优后的结果一般依靠 GPT-4 进行自动评估,例如使用 GPT-4 响应的结果进行指令调优后的模型倾向于生成更长的文本,同时 GPT-4 在候选响应的顺序上有偏差。

Orca 的研究人员主要采取了以下两项重要创新举措:

1.解释性训练

在 Orca 之前,Vicuna 和 Alpaca 等模型只能从 GPT-4 等模型中采样简单的{用户指令,回答}查询来进行蒸馏,借此训练新模型模仿自己的老师:

4adbbf67de99a098c79895ea31d41b02.jpeg

但在 Orca 这边,研发思路发生了巨大转变。

研究人员没有像之前那样简单提取查询,而是引入了第三项约束条件,即系统指令。也就是说,除了用户指令和模型答案之外,微软研究人员又额外添加了一系列指令,旨在对学生模型的行为和思考过程进行建模,如下图所示:

b5848c8cba188ace84c06969f8788009.jpeg

这并不难理解:学生不仅需要模仿 GPT-4 的输出质量,还需要模仿老师的思维过程,从而掌握类似的推理能力。

2.通过中间教学实现渐进式学习

截至目前,大多数开源模型只使用一对{学生,教师}素材。但在 Orca 却有两个老师。首先自然是 ChatGPT。作为第一位老师,它负责指导学生模型解决那些不太复杂的查询。之后再经由 GPT-4 提供更复杂的查询指引,让学生根据之前掌握的知识做进一步学习。

这个过程跟人类的学习方式非常相似。我们在学习乘除法之前,先得掌握加减法的诀窍,循序渐进突破一道道难关。而且与单纯使用 GPT-4 的训练方法比较,渐进式学习的效果确实更胜一筹。

结束语

目前越来越大、耗能越来越高的发展模式是否将很快走向终点,还有待验证,但如今每周几乎都会出现突破现有游戏规则和技术边界的新成果,大家都在效率方面做了很多努力。

从 Orca 凭借一点小技巧就能碾压众多开源模型来看,我们对于 AI 技术只能说还知之甚少。而作为已经凭借 ChatGPT 在市场上占据绝对优势的王者,微软率先出手,再将开源模型升级到新的维度。开源模型或将开启属于自己的新时代。

参考链接:

https://medium.com/@ignacio.de.gregorio.noblejas/orca-microsoft-7c78ca03c803

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

49b45ce640750a5ce0c3217047a227c7.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33237.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

创新案例|专注在线 协作平台 设计产品中国首家PLG独角兽企业蓝湖如何实现98%的头部企业渗透率

蓝湖起步于2015年&#xff0c;是一款服务于产品经理、设计师、工程师的产品设计研发在线协作工具&#xff0c; 2021年10月&#xff0c;蓝湖宣布完成C轮融资&#xff0c;融资额高达10亿人民币&#xff0c;称为中国2B市场中首家采用PLG发展的独角兽企业&#xff0c;并实现了从100…

OpenAI发布人工智能安全路径报告

2023年4月5日&#xff0c;OpenAI在其官网上发布了**《我们迈向人工智能安全的路径》(Our approach to AI safety)** 一文&#xff0c;对包括ChatGPT在内的AI产品安全问题进行回应。这一公告内容从六个角度对其AI产品的安全愿景进行了声明。此前&#xff0c;韩国三星称ChatGPT导…

网安业绩疲软,云计算生变,深信服造血能力成谜

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 深信服的转型&#xff0c;难以看到终点。 作为网安巨头的深信服&#xff0c;其业务体量曾度过一段高速增长的阶段。近五年&#xff0c;网络安全行业都处于持续增长的阶段&#xff0c;深信服也保持着整体业绩的增速。 但不能…

AI智能课程:第九节:让chatGPT当你的面试官

后续课程安排 面试官能力分析 专业打造各类面试官 设定初步结构 向chatGPT提问 最终呈现的效果 设定面试范围 面试管打造-分步法 练习 linux端 插件推荐&#xff1a;如何让自己的world更智能 拓展知识 创意玩法

使用ChatGPT 当回运营面试官,他真的好会,被震撼到了

使用移动端&#xff0c;多端都能体验ChatGPT&#xff0c;被震撼到了&#xff0c;这是我问的运营面试 使用 ChatGPT

ChatGPT4.0:让他扮演面试官

分享一下使用ChatGPT4.0的一些场景&#xff1a; 我的提问&#xff1a;我应聘高级JAVA开发工程师职位&#xff0c;你是技术面试官&#xff0c;请问我10个问题&#xff0c;并给出详细的参考答案 它的回答&#xff1a; 问题1&#xff1a;请解释一下什么是JVM&#xff08;Java虚…

GPT面试官

使用ChatGPT模仿面试官&#xff0c;问我做过的项目&#xff01; 1.关键词部分 需要让CHatGPT有一个准确的角色定位,以下是我给它的角色定位词&#xff1a; 请你作为一个Java后端面试官&#xff0c;请你基于我的项目&#xff0c;问我一些由项目扩展到专业知识的问题&#xff…

重磅!CPOS、VISA、Facebook、摩根大通杀入跨境支付市场

随着时间的推移&#xff0c;越来越多悄悄布局区块链的金融、科技巨头开始浮出水面。除了CPOS&#xff0c;VISA、摩根大通、Facebook也将区块链和加密金融作为接下来的重要业务。 和CPOS一样&#xff0c;VISA、摩根大通、Facebook同样看中了全球跨境支付的巨大市场。摩根大通的…

ICCV 2021口罩人物身份鉴别全球挑战赛冠军方案分享

1. 引言 10月11-17日&#xff0c;万众期待的国际计算机视觉大会 ICCV 2021 (International Conference on Computer Vision) 在线上如期举行&#xff0c;受到全球计算机视觉领域研究者的广泛关注。 今年阿里云多媒体 AI 团队&#xff08;由阿里云视频云和达摩院视觉团队组成&a…

使用VISA编程(转)

概述 下图示出对具有VISA的仪器进行控制的流程。当用可视Basic语言&#xff08;Visual Basic languagee&#xff09;开发VISA程序时&#xff0c;必须回顾一个特殊的编程注意事项&#xff08;在下面列出的自述文本文件中&#xff09;。 有关VISA程序库的利用以及利用带有E5071A宏…

IC卡(银行卡)APDU数据格式TLV解析

前言 隔离上篇文章IC卡&#xff08;智能卡&#xff09;APDU通讯总结太久了&#xff0c;这次整理一下TLV数据解析的教程&#xff0c;供大家参考。有时候发送指令读取到IC卡数据&#xff0c;直接转 ASCII码就可以拿到自己想要的数据&#xff0c;和业务交互。但是银行卡读取到的报…

使用VISA编程入门教程

概述 下图示出对具有VISA的仪器进行控制的流程。当用可视Basic语言&#xff08;Visual Basic languagee&#xff09;开发VISA程序时&#xff0c;必须回顾一个特殊的编程注意事项&#xff08;在下面列出的自述文本文件中&#xff09;。 有关VISA程序库的利用以及利用带有E5071…

Zebec联合Visa推出实体借记卡持续利好生态,$ZBC表现强劲

Zebec联合Visa推出实体借记卡持续利好生态&#xff0c;$ZBC表现强劲 Zebec生态从今年年初开始&#xff0c;持续的释放利好提振市场信心。此前&#xff0c;Zebec曾以 10 亿美元的完全稀释估值筹集了 850 万美元&#xff0c;该轮融资投资者包括 Circle Ventures、Shima 和 Resolu…

visa虚拟卡生成器_虚拟银行卡汇总

为后续做跨境支付,提前储备虚拟银行卡渠道 1. 全球付http://www.globalcash.hk/​ 在线申请,可充值,微信支付,开卡简单。2. 爱汇旅之卡http://www.ihui.com/​此卡是目前最方便容易获得,并大量获得的实体mastercard实体卡,可以直接联系客服大量拿卡,一次上百张甚至是数…

VISA编程实例(C实现)

今天写这个文章&#xff0c;是因为自己工作中用到了ROHDE&SCHWARZ&#xff08;即罗德-施瓦茨公司&#xff09;的仪表设备&#xff0c;需要通过编程的方式来读取仪表上功率测试结果&#xff0c;本来仪表上显示了测试结果&#xff0c;不知道硬件部门为什么需要通过程序来获取…

visa虚拟卡生成器_英国虚拟卡 获取多张VISA和Mastercard

这是一家英国的虚拟卡平台,主要提供虚拟信用卡。 官方网址: https://www.swiftpaycard.com/cards.php 进入之后,点上角的sign up进行注册。不懂得可以网页翻译注册。 输入你的个人信息。类似姓名,邮箱,密码,用户名之类的。自己填好就行。然后就会提示你注册成功。并提示…

【编程实践】24个实用代码优化技巧实例讲解

写代码的同学都有一些明显的共性,整体来说都比较符合代码特性中的可读性、严谨性、扩展性的要求。本文将举例一些自己看到的代码以及感受建议,从以上三个角度进行总结,希望能够对大家日常编码有一些帮助。 ChatGLM: 优秀的程序员通常具备以下特质: 1. 良好的逻辑思维能力:…

OpenAI-ChatGPT最新官方接口《从0到1生产最佳实例》全网最详细中英文实用指南和教程,助你零基础快速轻松掌握全新技术(十一)(附源码)

Production Best Practices 生产最佳实例 前言Introduction 导言Setting up your organization 设置您的组织Managing billing limits 管理计费限额API keys API密钥Staging accounts 演示账户 Building your prototype 构建您的原型Additional tips 其它技巧 Techniques for i…

chatgpt赋能python:Python数据搜索指南

Python数据搜索指南 对于很多Python程序员来说&#xff0c;从互联网上查找数据是非常常见的需求。本文将介绍一些使用Python高效地搜索数据的技巧和工具。 Google Custom Search API Google Custom Search API是一个用于在Google搜索引擎中搜索内容的接口。使用该接口&#…

【Python】用python高效查询gptkey的额度(封装pytqt5版本)

文章目录 前言一、源码二、运行效果展示总结 前言 昨天发了python查询gpt-key剩余额度和近10天使用额度查询情况的源码&#xff0c;有伙伴反馈很实用&#xff0c;但是如果能封装UI版就更好了 那徐浪老师今天就给大家做一个封装吧&#xff01; 一、源码 话不多说&#xff0c;…