微软发布Phi-3.5 SLM,附免费申请试用

Phi-3 模型系列是Microsoft 小型语言模型 (SLM) 系列中的最新产品。

它们旨在具有高性能和高性价比,在语言、推理、编码和数学等各种基准测试中的表现均优于同类和更大规模的模型。Phi-3 模型的推出扩大了 Azure 客户的高质量模型选择范围,为他们编写和构建生成式 AI 应用程序时提供了更多实用的选择。

参考链接:
微软 Azure AI 、Phi-3等免费试用申请

自 2024 年 4 月推出以来,我们收到了许多来自客户和社区成员的宝贵反馈,他们就 Phi-3 模型的改进领域提出了宝贵意见。今天,我们很自豪地宣布推出Phi-3.5-miniPhi-3.5-vision以及 Phi 系列的新成员Phi-3.5-MoE,这是一种混合专家 (MoE) 模型。Phi-3.5-mini 通过 128K 上下文长度增强了多语言支持。 Phi-3.5-vision 改进了多帧图像理解和推理,提升了单图像基准测试的性能。Phi-3.5-MoE 拥有 16 位专家和 6.6B 个活动参数,可提供高性能、低延迟、多语言支持和强大的安全措施,在保持 Phi 模型功效的同时,优于大型模型。

 

缩略图 1 标题为 Phi- 3.5 SLM 中的质量与尺寸图

Phi- 3.5 SLM 中的质量与尺寸图

Phi-3.5-MoE:专家混合

Phi-3.5-MoE 是 Phi 模型系列的最新成员。它由 16 位专家组成,每位专家包含 38 亿个参数。总模型大小为 420 亿个参数,使用两位专家时可激活 66 亿个参数。在质量和性能方面,此 MoE 模型优于类似大小的密集模型。它支持 20 多种语言。与 Phi-3 同类模型一样,MoE 模型采用了强大的安全后训练策略,使用开源和专有合成指令和偏好数据集的组合。此后训练过程结合了监督微调 (SFT) 和直接偏好优化 (DPO),同时利用人工标记和合成数据集。这些数据集包括专注于有用性和无害性的数据集,以及多个安全类别。Phi-3.5-MoE 还支持高达 128K 的上下文长度,使其能够处理大量长上下文任务。

 

为了了解模型质量,我们将 Phi-3.5-MoE 与一系列基准上的模型进行了比较,如表 1 所示:

缩略图 2 标题为表 1:Phi-3.5-MoE 模型质量

表 1:Phi-3.5-MoE 模型质量

 

我们在下表中仔细研究了不同类别的公共基准数据集:

缩略图 3 标题为表 2:Phi-3.5-MoE 模型在各种功能上的质量

表 2:Phi-3.5-MoE 模型在各种功能上的质量

 

仅具有 6.6B 活动参数的 Phi-3.5-MoE 实现了与更大规模模型类似的语言理解和数学水平。此外,该模型在推理能力方面优于更大的模型。该模型为各种任务提供了良好的微调能力。表 3 突出显示了 Phi-3.5-MoE 在多语言 MMLU、MEGA 和多语言 MMLU-pro 数据集上的多语言能力。总体而言,我们观察到,即使只有 6.6B 活动参数,与其他具有更大活动参数的模型相比,该模型在多语言任务上也非常具有竞争力。

 

多语言能力

缩略图 4 标题为表 3:Phi-3.5-MoE 多语言基准

表 3:Phi-3.5-MoE 多语言基准

 

下表显示了一些受支持语言的多语言 MMLU 分数。

缩略图 5 标题表 4:Phi-3.5-MoE 多语言 MMLU 基准

表 4:Phi-3.5-MoE 多语言 MMLU 基准

 

Phi-3.5-迷你

Phi-3.5-mini 模型已使用多语言合成和高质量过滤数据进行了进一步的预训练。随后进行了一系列后训练步骤,包括监督微调 (SFT)、近端策略优化 (PPO) 和直接偏好优化 (DPO)。这些过程利用了人工标记、合成和翻译数据集的组合。

 

模型质量

在深入研究语言模型的功能时,了解它们之间的比较至关重要。这就是为什么我们利用我们的内部基准测试平台对 Phi-3.5-mini 以及最近表现最佳的大型模型进行测试。在高层次概述中,表 1 提供了关键基准测试中模型质量的快照。尽管其紧凑尺寸仅为 3.8B 个参数,但这种高效模型不仅能与其他大型模型的性能相媲美,而且往往能超越它们。

 

缩略图 6 标题为表 5:Phi-3.5-mini 模型质量

表 5:Phi-3.5-mini 模型质量

 

多语言能力

Phi-3.5-mini 是我们最新的 3.8B 模型更新。该模型使用了额外的持续预训练和后训练数据,从而显著提高了多语言、多轮对话质量和推理能力。该模型已针对以下列出的精选语言进行了训练:阿拉伯语、中文、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、德语、希伯来语、匈牙利语、意大利语、日语、韩语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语、泰语、土耳其语和乌克兰语。

 

下表 6 重点介绍了 Phi-3.5-mini 在多语言 MMLU、MGSM、MEGA 和多语言 MMLU-pro 数据集的平均语言特定分数上的多语言能力。

缩略图 7 标题表 6:Phi-3.5-mini 多语言质量

表 6:Phi-3.5-mini 多语言质量

 

下表 7 显示了一些受支持语言的多语言 MMLU 分数。

缩略图 8 标题表 7:Phi-3.5-mini 多语言 MMLU 在选定语言集上的质量

表 7:Phi-3.5-mini 多语言 MMLU 在选定语言集上的质量

 

Phi-3.5-mini 在多语言支持方面比 Phi-3-mini 有了显著的改进。阿拉伯语、荷兰语、芬兰语、波兰语、泰语和乌克兰语在新 Phi 版本中得到了最大的提升,性能提高了 25-50%。从更广泛的角度来看,Phi-3.5-mini 在任何 8B 以下模型中都表现出最佳性能,包括英语以及多种语言。值得注意的是,该模型使用 32K 词汇表并针对上述资源较高的语言进行了优化,不建议在未进一步微调的情况下将其用于资源较少的语言。

 

长上下文

Phi-3.5-mini 支持 128K 上下文长度,在总结长文档或会议记录、基于长文档的 QA 和信息检索等任务中表现出色。Phi-3.5 的表现优于仅支持 8K 上下文长度的 Gemma-2 系列。此外,Phi-3.5-mini 与更大的开放权重模型(如 Llama-3.1-8B-instruct、Mistral-7B-instruct-v0.3 和 Mistral-Nemo-12B-instruct-2407)相比具有很强的竞争力。表 8 列出了各种长上下文基准。

 

博客文章缩略图 9,标题为“探索全新多语言、高品质 Phi-3.5 SLM”

Ruler:基于检索的长上下文理解基准

博客文章缩略图 10,标题为“探索全新多语言、高品质 Phi-3.5 SLM”

RepoQA:长上下文代码理解的基准

缩略图 11 标题表 8:Phi-3.5-mini 长上下文基准

表 8:Phi-3.5-mini 长上下文基准

 

Phi-3.5-mini-instruct 仅具有 3.8B 参数、128K 上下文长度和多语言支持,是此类别中唯一的模型。值得注意的是,我们选择支持更多语言,同时在各种任务上保持英语性能。由于模型容量有限,这可能导致模型上的英语知识优于其他语言。对于多语言知识密集型任务,我们建议在 RAG 设置中使用该模型。

 

 

具有多帧输入的Phi-3.5视觉

Phi-3.5-vision 引入了基于宝贵客户反馈开发的多帧图像理解和推理的尖端功能。这项创新支持详细图像比较、多图像摘要/故事讲述和视频摘要,可在各种场景中提供广泛的应用。

 

例如,查看多张幻灯片的总结模型输出:

博客文章缩略图 12,标题为“探索全新多语言、高品质 Phi-3.5 SLM”

 

缩略图 13 标题为 Phi-3.5-vison 模型输出,用于幻灯片摘要

Phi-3.5-vison 模型输出用于幻灯片摘要

 

值得注意的是,Phi-3.5-vision 在众多单图像基准测试中表现出了显著的性能提升。例如,它将 MMMU 性能从 40.4 提升到了 43.0,将 MMBench 性能从 80.5 提升到了 81.9。此外,文档理解基准测试 TextVQA 也从 70.9 提升到了 72.0。

 

下表显示了两个著名多图像/视频基准的详细比较结果,展示了增强的性能指标。值得注意的是,Phi-3.5-Vision 并未针对多语言用例进行优化。建议不要在未进一步微调的情况下将其用于多语言场景。

缩略图 14 标题表 9:Phi-3.5-vision 任务基准

表 9:Phi-3.5-vision 任务基准

 

缩略图 15 标题表 10:Phi-3.5-vision VideoMME 基准

表 10:Phi-3.5-vision VideoMME 基准

 

 

安全

Phi-3 系列模型是根据Microsoft 负责任的 AI 标准开发的,该标准是一套基于以下六项原则的全公司范围的要求:问责制、透明度、公平性、可靠性和安全性、隐私和安全以及包容性。与之前的 Phi-3 模型一样,也采用了多方面的安全评估和安全后训练方法,并采取了额外措施来考虑此版本的多语言功能。我们的安全训练和评估方法(包括跨多种语言和风险类别的测试)概述在Phi-3 安全后训练论文中。虽然 Phi-3 模型受益于这种方法,但开发人员应该应用负责任的 AI 最佳实践,包括映射、衡量和减轻与其特定用例以及文化和语言环境相关的风险。

 

优化版本

ONNX Runtime为 Phi 系列模型提供优化的推理。您可以使用此 示例在各种硬件目标上优化 Phi-3.5-mini 。请继续关注未来几周内最新 Phi-3.5 模型的更新 ONNX 变体。

 

更可预测的输出

我们将Guidance引入 Azure AI Studio 中的 Phi-3.5-mini 无服务器端点产品,通过定义针对应用程序量身定制的结构,使输出更加可预测。借助 Guidance,您可以消除昂贵的重试,并且可以例如限制模型从预定义列表(例如医疗代码)中进行选择,将输出限制为来自所提供上下文的直接引语,或遵循任何正则表达式。Guidance 在推理堆栈中逐个引导模型令牌,将成本和延迟降低 30-50%,这使其成为Phi-3-mini 无服务器端点的独特且有价值的附加组件。

 

 

结束语

Phi-3.5-mini 已成为 LLM 领域中独一无二的产品,仅拥有 3.8B 参数、128K 上下文长度和多语言支持。Phi-3.5-mini 是创建高效多语言模型的里程碑,在广泛的语言支持和专注于英语的性能之间取得了微妙的平衡。鉴于模型容量较小,用户可能会发现模型中英语知识的密度超过了其他语言。在处理多语言、知识密集型任务时,建议在检索增强生成 (RAG)设置中使用Phi-3.5-mini。此配置可以通过利用外部数据源显著提高模型在不同语言中的性能,从而减轻其紧凑架构所带来的语言特定限制。

 

Phi-3.5-MoE具有 16 个小型专家,可提供高质量的性能和降低的延迟,支持 128k 上下文长度和多种语言,并具有强大的安全措施。它超越了更大的模型,可以通过微调针对各种应用进行定制,同时保持 6.6B 活动参数的效率。

 

Phi-3.5-vision在多帧图像理解和推理方面取得了进展,提高了单图像基准测试性能。

 

Phi -3.5模型系列为开源社区和 Azure 客户提供了经济高效、功能强大的选项,突破了小型语言模型和生成式 AI 的界限。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/416664.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows自动化程序开发指南

自动化程序的概念 “自动化程序”指的是通过电脑编程来代替人类手工操作的一类程序或软件。这类程序具有智能性高、应用范围广的优点,但是自动化程序的开发难度大、所用技术杂。 本文对自动化程序开发的各个方面进行讲解。 常见的处理对象 自动化程序要处理的对…

Vivado+PetaLinux 系统搭建教程

PetaLinux 是基于 Yocto project DDR SDRAM 双倍数据率同步动态随机存取存储器(英语:Double Data Rate Synchronous Dynamic Random Access Memory,简称DDR SDRAM)为具有双倍资料传输率的SDRAM,其资料传输速度为系统主…

【python因果推断库5】使用 CausalPy 进行贝叶斯geolift 分析2

目录 NHEFS 数据 评估平衡 估计平均处理效应 结论 再次,InversePropensityWeighting 类封装了检查倾向性得分分布以及在不同加权方案下评估平均处理效应的功能。 result1.plot_ATE(method"raw", prop_draws10, ate_draws500); 这里我们在三个图板中绘…

DDS基本原理--FPGA学习笔记

DDS信号发生器原理: timescale 1ns / 1ps // // Company: // Engineer: // // Create Date: 2024/09/04 15:20:30 // Design Name: hilary // Module Name: DDS_Module //module DDS_Module(Clk,Reset_n,Fword,Pword,Data);input Clk;input Reset_n;input [31:0]…

ROS2 2D相机基于AprilTag实现3D空间定位最简流程

文章目录 前言驱动安装下载安装方式一:方式二: 相机检测配置config文件编译、运行程序注意 内参标定标定板运行程序 apriltag空间定位标签打印下载安装可视化结果 前言 AprilTag是一种高性能的视觉标记系统,广泛应用于机器人导航、增强现实和…

ComfyUI中IC-Light节点的Detail Transfer节点参数测试

🎆背景 ic-light是一个能重绘画面光影的节点,但是在重绘的过程中,难免会将图像本身的细节进行重绘,尤其是在电商的场景中,文字和商品的细节很多时候会被重绘的乱七八糟。 针对这种情况,Comfyui-IC-Light节…

Java Web全栈开发技术指南

本文还有配套的精品资源,点击获取 简介:Java Web开发涉及前端JavaScript、后端Java Servlet、JSP等技术。本指南涵盖了JavaScript、JSP、Servlet、MVC模式、Web容器、HTML/CSS/JS、AJAX、RESTful API、JSON、前后端分离、数据库连接和操作以及安全性等…

Mysql8.0安装以及递归表达式使用

mysql安装 以centos7为例安装! 安装wget yum install wget -y 给CentOS添加rpm源,并且选择较新的源 官网地址 wget dev.mysql.com/get/mysql84-community-release-el7-1.noarch.rpm 下载安装的rpm源文件 yum install mysql84-community-release-el7-1.no…

国有企业如何高效开展虚假贸易排查?

▶虚假贸易排查最新动向 2023年10月,有关文件提出“十不准”,严禁央企开展各类虚假贸易业务。 2024年5月,明确表示将依法加大对排斥限制潜在投标人、规避招标、串通投标、以行贿手段谋取中标等违法犯罪行为的惩处力度。 2024年7月&#xf…

深智城基于超融合数据库MatrixOne的一站式交通大数据平台改造

在智慧交通应用中,数据处理需求极为复杂,涉及人、车辆、道路和环境等多个方面,产生了大量异构数据。交通管理人员需要对这些数据进行实时分析和决策,以应对各种交通事件。然而,在实际生产中会发现数据处理缺陷、管理复…

负载均衡 Ribbon 与 Fegin 远程调用原理

文章目录 一、什么是负载均衡二、Ribbon 负载均衡2.1 Ribbon 使用2.2 Ribbon 实现原理 (★)2.3 Ribbon 负载均衡算法 三、Feign 远程调用3.1 Feign 简述3.2 Feign 的集成3.3 Feign 实现原理 (★) 一、什么是负载均衡 《服务治理:Nacos 注册中心》 末尾提到了负载均…

信息安全发展阶段与形式

关注这个证书的其他相关笔记:NISP 一级 —— 考证笔记合集-CSDN博客 0x01:信息安全的发展阶段 信息安全的发展阶段可以参照下面的思维导图: 0x02:我国的信息安全形式 2013 年,“棱镜门” 事件在全球持续发酵&#xf…

idea配置连接数据库的操作方法(适配不同版本)

文章目录 一、IDEA找不到database图标的解决方法二、链接数据库 一、IDEA找不到database图标的解决方法 首先很多小伙伴说我左右侧边栏都找了找不到数据库图标 解决办法: 第一种:选择 View --> Tool Windows --> Database 如果你的idea版本在这里…

ASP源码 发布站改制最终版 原来3000ok网通大站的源程序

ASP源码 新服发布站改制最终版 原来3000ok网通大站的源程序 这个是非常完整 兼容性很强的。 后台地址:http://你的域名/admin 账号:admin 密码:admin 会员发布地址:http://你的域名/gamevip 源码下载:https://downlo…

Splasthop 安全远程访问帮助企业对抗 Cobalt Strike 载荷网络攻击

一、背景 根据 FreeBuf(标题为:潜藏系统2个月未被发现,新型网络攻击瞄准中国高价值目标)和 The Hacker News(标题为:New Cyberattack Targets Chinese-Speaking Businesses with Cobalt Strike Payloads&a…

『功能项目』项目优化【21】

我们打开上一篇20主角身旁召唤/隐藏坐骑的项目, 本章要做的事情如以下几点: 1.优化资源包Resources下的层级分类 2.优化脚本包Scripts下的脚本分类 3.地形Terrain的优化(只让主角点击地面移动跳过其他石头山树等其他物体) 首…

Windows系统下的Spark环境配置

一:Spark的介绍 Apache Spark 是一个开源的分布式大数据处理引擎,它提供了一整套开发API,包括流计算和机器学习。Spark 支持批处理和流处理,其显著特点是能够在内存中进行迭代计算,从而加快数据处理速度。尽管 Spark …

Lua 代码编码规范

lua代码格式 vscode stylua 插件 配置文件stylua.toml column_width 240 line_endings “Unix” indent_type “Spaces” --使用空格 很重要,保证不同编辑器打开是一样的 indent_width 4 quote_style “AutoPreferDouble” --字符串引号样式双引号 call_paren…

0.3 学习Stm32经历过的磨难

文章目录 用库函数传参 能否按位或STM32库函数XXX_GetFlagStatus和XXX_GetITStatus的区别关于MDK导入文件后报错 Browse information of one files is not available 用库函数传参 能否按位或 答案是看清况,而不是一股脑的写!(血泪的经验啊&…

以太网通信之UDP

免责声明: 本文所提供的信息和内容仅供参考。作者对本文内容的准确性、完整性、及时性或适用性不作任何明示或暗示的保证。在任何情况下,作者不对因使用本文内容而导致的任何直接或间接损失承担责任,包括但不限于数据丢失、业务中断或其他经济…