微软发布了Orca 2,一对小型语言模型,它们的性能超越了体积更大的同类产品

尽管全球目睹了OpenAI的权力斗争和大规模辞职,但作为AI领域的长期支持者,微软并没有放慢自己的人工智能努力。今天,由萨提亚·纳德拉领导的公司研究部门发布了Orca 2,这是一对小型语言模型,它们在零样本设置下对复杂推理任务的测试中,要么匹敌要么超越了体积是它们五到十倍的大型语言模型,包括Meta的Llama-2 Chat-70B。

这些模型分别具有70亿和130亿参数,是在几个月前展示了通过模仿更大、更有能力模型的逐步推理轨迹而展现出强大推理能力的原始13B Orca模型工作的基础上构建的。

微软的研究人员在一篇联合博客文章中写道:“通过Orca 2,我们继续展示改进的训练信号和方法可以让小型语言模型实现更强的推理能力,这通常只在更大的语言模型中找到。”

公司已经开源了这两个新模型,以进一步研究小型模型的开发和评估,这些模型可以像更大的模型一样表现出色。这项工作可以为企业(特别是资源有限的企业)提供更好的选择,以应对其目标用例,而无需在计算能力上投入过多。

了解更多 教小型模型如何推理 虽然像GPT-4这样的大型语言模型长期以来一直以其推理能力和解释复杂问题的能力给企业和个人留下深刻印象,但它们的小型对应物大多缺乏这种能力。微软研究院决定通过对Llama 2基础模型进行微调来解决这一差距,使用高度定制的合成数据集。然而,研究人员训练小型模型采用不同的解决策略来应对不同的任务,而不是训练模型去复制更有能力模型的行为——这是一种常用的模仿学习技术。这个想法是,更大模型的策略可能并不总是适用于小型模型。例如,GPT-4可能能够直接回答复杂的问题,但一个小型模型在没有那种能力的情况下,可能会受益于将同一任务分解成几个步骤。

研究人员在今天发表的一篇论文中写道:“在Orca 2中,我们教授模型各种推理技术(逐步、回忆然后生成、回忆-推理-生成、直接回答等)。更重要的是,我们旨在帮助模型学会确定每项任务最有效的解决策略。”该项目的培训数据是从一款更有能力的教师模型中获取的,以这样的方式教导学生模型处理两个方面:如何使用推理策略以及何时准确地使用它来处理手头的任务。

Orca 2在较大模型中的表现更佳 在零样本设置下的15项多样化基准测试(包括语言理解、常识推理、多步骤推理、数学问题解决、阅读理解、总结和真实性等方面)中,Orca 2模型取得了惊人的结果,其表现大多与体积是它们五到十倍的模型相匹敌或超越。所有基准测试结果的平均值显示,Orca 2的7B和13B在Llama-2-Chat-13B和70B以及WizardLM-13B和70B上表现更好。只有在GSM8K基准测试中,它包含了8.5K高质量的小学数学问题,WizardLM-70B比Orca模型和Llama模型做得更好。

Orca 2基准测试结果 Orca 2基准测试结果 虽然这种表现对于可能希望使用小型、高性能模型进行经济高效的商业应用的企业团队来说是个好消息,但重要的是要注意,这些模型也可能继承其他语言模型以及它们所基于的基础模型的普遍限制。

微软补充说,创建Orca模型的技术甚至可以用于其他基础模型。

“尽管它有几个限制……,Orca 2在未来发展的潜力是显而易见的,尤其是在提高小型模型的推理能力、专业化、控制和安全性方面。使用精心筛选的合成数据进行后期培训被证明是这些改进的关键策略。随着更大的模型继续表现出色,我们与Orca 2的合作标志着在语言模型的应用和部署选项多样化方面迈出了重要的一步。”研究团队写道。

更多小型高性能模型即将涌现 随着开源Orca 2模型的发布和该领域的持续研究,可以肯定地说,更多高性能的小型语言模型可能会在不久的将来出现。

就在几周前,中国最近成为独角兽的01.AI,由资深人工智能专家李开复创立,也在这一领域迈出了重要的一步,发布了一款支持中英文的340亿参数模型,其性能超过了70亿的Llama 2和180亿的Falcon对手。该初创公司还提供了一个经过6亿参数训练的较小选项,在广泛使用的AI/ML模型基准测试中表现尚可。

Mistral AI,这家成立六个月的巴黎初创公司,因其独特的Word Art标识和创纪录的1.18亿美元种子轮融资而成为头条新闻,也提供了一款70亿参数的模型,其性能超过了更大的产品,包括Meta的Llama 2 13B(Meta较小的新型号之一)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/207285.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[Docker]十一.Docker Swarm集群raft算法,Docker Swarm Web管理工具

一.Docker Swarm集群raft算法讲解 Raft :一致性算法,在保证大多数管理节点存活的情况下,集群才能使用, 所以就要求如果集群的话, manager 节点必须 >3 台 ,如果是两个台,其中一台宕机&#…

分享几种 Java8 中通过 Stream 对列表进行去重的方法

作者简介:大家好,我是smart哥,前中兴通讯、美团架构师,现某互联网公司CTO 联系qq:184480602,加我进群,大家一起学习,一起进步,一起对抗互联网寒冬 1. Stream 的 distinct…

pgz easyexcel如何给excel文件添加自定义属性

免费API方式 直接上传URL,自定义修改Excel 视频演示【内含接口地址】 https://www.ixigua.com/7304510132812153385 前情提示 | 功能说明 多选仅支持微软office、office365系列Excel。因为WPS宏功能需要企业版且付费生成xlsx、xlsm等文件,office和WPS均可以打开,均可以单…

数据结构---堆

1.堆的概念及结构 堆的性质&#xff1a; 堆中某个节点的值总是不大于或不小于其父节点的值堆总是一棵完全二叉树 2.举例说明 堆一般是把数组数据看做是一棵完全二叉树 小堆要求&#xff1a;任意一个父亲<孩子大堆要求&#xff1a;任意一个父亲>孩子 比如&#xff1…

【超详细】vue项目:Tinymce富文本使用教程以及踩坑总结+功能扩展

【【超详细】vue项目&#xff1a;Tinymce富文本使用教程以及踩坑总结功能扩展 引言&#xff1a;一、 开始二、快速开始1、安装Tinymce 三、封装成Vue组件1、文件结构2、index.vue3、dynamicLoadScript.js4、plugin.js5、toolbar.js 四、使用Tinymce组件五、业务逻辑实现1、添加…

【UE5】五大基类及其使用

UObject UObject表示对象&#xff0c;准确来说&#xff0c;虚幻引擎中的对象基础类为UObject UObject提供了以下功能&#xff1a; 垃圾收集&#xff08;Garbage collection&#xff09;引用自动更新&#xff08;Reference updating&#xff09;反射&#xff08;Reflection&am…

亚马逊云与生成式 AI 的融合——生成式AI的应用领域

文章目录 前言亚马逊云科技增强客户体验聊天机器人和虚拟助手亚马逊云科技 鸿翼&#xff1a;提供精准检索和问答&#xff0c;显著提升全球化售后服务体验AI 赋能的联络中心智能导购&个性化推荐智慧数字人 提升员工生成力和创造力对话式搜索亚马逊云科技 西门子&#xff1…

Vue3 Router跳转传参

最近遇到这个问题router跳转传参&#xff0c;真是要了老命了。 根据网上各位大神给出的方法&#xff0c;试了 import { useRouter } from vue-routerconst router useRouter()//1. 无法跳转 router.push(name:,params:{})//2. 可以跳转, 但需要在定义router同时定义占位符&a…

Redis7--基础篇4(Redis事务)

Redis事务是什么 可以一次执行多个命令&#xff0c;本质是一组命令的集合&#xff0c;一个事务中的所有命令都会序列化&#xff0c;按顺序串行&#xff0c;而不会被其他命令插入。 其作用就是在一个队列中&#xff0c;一次性、顺序、排他的执行一系列命令。 Redis事务 VS 数据…

使用gparted进行ubuntu虚拟机的磁盘扩容(解决gparted无法拖动分区的问题)

在学习内核编译下载linux内核源码的时候&#xff0c;由于源码非常大&#xff0c;下载的时候提示磁盘空间不足&#xff0c;我才意识到刚开始创建虚拟机的时候分配了20GB的空间现在已经快用光了。在VM的设置里可以进行扩容&#xff0c;我扩展到了30GB重启却发现空间并没有加到我使…

SQLite 和 SQLiteDatabase 的使用

实验七&#xff1a;SQLite 和 SQLiteDatabase 的使用 7.1 实验目的 本次实验的目的是让大家熟悉 Android 中对数据库进行操作的相关的接口、类等。SQLiteDatabase 这个是在 android 中数据库操作使用最频繁的一个类。通过它可以实现数据库的创建或打开、创建表、插入数据、删…

Python自动化测试——元素定位

1.selenium简介 Selenium是一个用于Web应用程序测试的工具。Selenium是直接运行在浏览器中&#xff0c;模拟用户操作web界面。支持多平台&#xff1a;windows、linux、MAC &#xff0c;支持多浏览器&#xff1a;ie、firefox、chrome等浏览器。 2. 启动浏览器 # 导入webdrive…

Apache Airflow (十四) :Airflow分布式集群搭建及测试

&#x1f3e1; 个人主页&#xff1a;IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客 &#x1f6a9; 私聊博主&#xff1a;加入大数据技术讨论群聊&#xff0c;获取更多大数据资料。 &#x1f514; 博主个人B栈地址&#xff1a;豹哥教你大数据的个人空间-豹…

OBS Studio 30.0 正式发布:支持 WebRTC

导读OBS Studio 30.0 已正式发布。此版本移除了对 Ubuntu 20.04、Qt 5 和 FFmpeg 4.4 之前版本的支持。 OBS Studio 30.0 已正式发布。此版本移除了对 Ubuntu 20.04、Qt 5 和 FFmpeg 4.4 之前版本的支持。 主要变化包括&#xff1a; 支持 WebRTC&#xff08;详情查看 OBS Stu…

整体迁移SVN仓库到新的windows服务器

一、背景 公司原有的SVN服务器年代比较久远经常出现重启情况&#xff0c;需要把SVN仓库重新迁移到新的服务器上&#xff0c;在网上也搜到过拷贝Repositories文件直接在新服务器覆盖的迁移方案&#xff0c;但考虑到原有的操作系统和现有的操作系统版本不一致&#xff0c;SVN版本…

python的制图

测试数据示例&#xff1a; day report_user_cnt report_user_cnt_2 label 2023-10-01 3 3 欺诈 2023-10-02 2 4 欺诈 2023-10-03 6 5 欺诈 2023-10-04 2 1 正常 2023-10-05 4 3 正常 2023-10-06 4 4 正常 2023-10-07 2 6 正常 2023-10-08 3 7 正常 2023-10-09 3 12 正常 2023-…

代码随想录刷题题Day2

刷题的第二天&#xff0c;希望自己能够不断坚持下去&#xff0c;迎来蜕变。&#x1f600;&#x1f600;&#x1f600; 刷题语言&#xff1a;C / Python Day2 任务 977.有序数组的平方 209.长度最小的子数组 59.螺旋矩阵 II 1 有序数组的平方&#xff08;重点&#xff1a;双指针…

华为电视盒子 EC6108V9C 刷机成linux系统

场景&#xff1a; 提示&#xff1a;这里简述项目相关背景&#xff1a; 家里装宽带的时候会自带电视盒子&#xff0c;但是由于某些原因电视盒子没有用&#xff0c;于是就只能摆在那里吃土&#xff0c;闲来无事&#xff0c;搞一下 问题描述 提示&#xff1a;这里描述项目中遇到…

使用yolov7进行多图像视频识别

1.yolov7你可以让你简单的部署,比起前几代来说特别简单 #下面是我转换老友记的测试视频,可以看到几乎可以准确预测 2.步骤 1.在github官网下载代码 https://github.com/WongKinYiu/yolov7 2.点击下载权重文件放到项目中 3.安装依赖,我的python版本是3.6的 pip install -r requ…

无mac电脑生成uniapp云打包私钥证书的攻略

uniapp顾名思义是一个跨平台的开发工具&#xff0c;大部分uniapp的开发者&#xff0c;其实并没有mac电脑来开发&#xff0c;但是生成ios的证书&#xff0c;官网的教程却是需要mac电脑的&#xff0c;那么有没有办法无需mac电脑即可生成uniapp云打包的私钥证书呢&#xff1f; 下…