可以在手机端运行的大模型标杆:微软发布第三代Phi-3系列模型,评测结果超过同等参数规模水平,包含三个版本,最小38亿,最高140亿参数

本文原文来自DataLearnerAI官方网站:

可以在手机端运行的大模型标杆:微软发布第三代Phi-3系列模型,评测结果超过同等参数规模水平,包含三个版本,最小38亿,最高140亿参数 | 数据学习者官方网站(Datalearner)icon-default.png?t=N7T8https://www.datalearner.com/blog/1051713851616894


Phi系列大语言模型是微软开源一个小规模参数的语言模型。第一代和第二代的Phi模型参数规模都不超过30亿,但是在多个评测结果上都取得了非常亮眼的成绩。今天,微软发布了第三代Phi系列大模型,最高参数规模也到了140亿,其中最小的模型参数38亿,评测结果接近GPT-3.5的水平。

微软发布phi-3模型

  • Phi系列模型简介
  • 第三代Phi-3模型简介
  • Phi-3系列模型评测结果接近GPT-3.5
  • Phi-3系列的开源情况
Phi系列模型简介

大语言模型的一个重要应用方向就是在手机端运行。为此,30亿参数规模几乎是上限(超过这个规模的模型,需要通过量化等手段牺牲模型性能)。在这其中,微软的Phi系列模型是最具有竞争力的。

Phi系列模型的目的是希望在小规模参数的模型上获得传统大模型的能力。微软发布了第三代Phi模型,这一代的模型最小参数38亿,最大规模拓展到了140亿,包含3个版本,分别是Phi-mini-3.8B、Phi-small-7B和Phi-medium-14B。参数规模增长的同时,能力也大幅提高。

第三代Phi-3模型简介

第三代的Phi模型是微软继续探索小规模参数语言模型的成果。尽管Phi-3包含了70亿和140亿两个较大规模版本的模型。但是最小的38亿参数模型依然可以在手机端运行。

Phi-3-mini-3.8B模型采用了transformer的decoder架构,默认上下文长度是4K,采用了和Llama-2类似的block结构,使用同样的tokenizer,词汇表大小为32064。因此,任何为Llama2开发的工具套件几乎可以直接应用在phi-3-mini上,这个模型训练数据量达到了3.3万亿tokens。

Phi-3-small-7B是新增的一个更大规模参数版本的Phi模型,参数70亿,但是tokenizer换成了tiktoken,使之有更好的多语言能力,词汇表大小也拓展到了100352,默认上下文长度是8K,模型也有分组查询注意力机制(Group Query Attention,GQA),从这个变化看,和Llama3的架构非常接近(Llama3的详细分析参考:开源王者!全球最强的开源大模型Llama3发布!15万亿数据集训练,最高4000亿参数,数学评测超过GPT-4,全球第二! | 数据学习者官方网站(Datalearner) )。模型的数据训练量达到了4.8万亿tokens。

Phi-3还有一个140亿参数规模的Phi-3-medium-14B版本,架构与最小的Phi-3-mini-3.8B相同,但是训练的epoch更多,训练的数据量和Phi-3-small一样,4.9万亿tokens。但是这个模型比Phi-3-small-7B的提升不如Phi-3-small-7B相比Phi-3-mini-3.8B提升多。作者认为可能是数据问题,所以后面他们还会改进,因此,把这个Phi-3-medium-14B称为preview版本。

Phi-3模型系列更多的详情参考DataLearnerAI模型信息卡地址:

模型版本Phi3模型信息卡地址
Phi3-miniPhi-3-mini 3.8B(Phi-3-mini 3.8B)详细信息 | 名称、简介、使用方法,开源情况,商用授权信息 | 数据学习(DataLearner)
Phi3-smallPhi-3-small 7B(Phi-3-small 7B)详细信息 | 名称、简介、使用方法,开源情况,商用授权信息 | 数据学习(DataLearner)
Phi3-medium-previewPhi-3-medium 14B-preview(Phi-3-medium 14B-preview)详细信息 | 名称、简介、使用方法,开源情况,商用授权信息 | 数据学习(DataLearner)
Phi-3系列模型评测结果接近GPT-3.5

Phi系列模型的评测结果一直非常优秀,尽管在复杂任务上与大规模参数版本的大模型有差距,但是作为一个几十亿参数模型来说,已经表现很不错了。

本次第三代Phi模型的提升也比较大。首先,我们看一下在30亿参数规模左右模型的对比结果:

Phi-3-mini评测结果

数据来源:30亿参数规模大模型综合评测对比 | 当前主流大模型在各评测数据集上的表现总榜单 | 数据学习 (DataLearner)

上图是DataLearnerAI收集的30亿参数以下大模型评测对比结果。可以看到,Phi-3-mini-3.8B得分远超其它同等参数规模的模型,效果非常好。而且不仅仅是MMLU的综合评测理解上,在数学推理GSM8K以及MT-Bench上表现也非常好。其70亿参数规模版本的模型在MMLU测评上甚至超过了Anthropic旗下的Claude3-Haiku模型!

如果不限制参数规模,与所有其它模型相比,Phi-3-medium超过了此前Mixtral-8×22B-MoE模型,表现非常亮眼:

Phi-3-medium和Phi-3-small评测结果

数据来源L:大模型综合评测对比 | 当前主流大模型在各评测数据集上的表现总榜单 | 数据学习 (DataLearner)

在编程评测HumanEval上,这三个模型相差不大,甚至最大的140亿参数规模的Phi-3-medium-14B水平表现略有下降,十分奇怪:

Phi-3模型的编程能力测评

数据来源:大模型代码能力评测对比 | 当前主流大模型在代码能力上的表现总榜单 | 数据学习 (DataLearner)

从这些评测结果看,Phi-3模型的变现十分优秀。不过,有争议的是Phi系列模型一直因为评测结果很高但是参数量很少受到质疑。其实,从现在的情况看,因为大多数评测的数据过于陈旧,导致模型评测结果的区分度已经降低。而且很多模型都会在有监督微调(SFT)阶段针对性的做微调,会导致评测分数虚高。不过,从侧面看,在30亿参数规模的模型中,Phi系列一直是标杆,还是值得关注的。

Phi-3系列的开源情况

目前,Phi-3系列模型只发布了论文信息,还没有预训练结果发布。大家关注DataLearnerAI的模型信息卡可以获取后续的情况。根据Phi-2模型发布的情况看,最早Phi2模型是不可以商用的,但是过了一段时间,开源协议改成MIT开源协议,没有任何商用限制。Phi-3可以期待也是类似的开源协议。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/316816.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CH4INRULZ-v1靶机练习实践报告

CH4INRULZ-v1靶机练习实践报告 1 安装靶机 靶机是.ova文件,需要用VirtualBox打开,但我习惯于使用VMWare,因此修改靶机文件,使其适用于VMWare打开。 解压ova文件,得到.ovf文件和.vmdk文件。直接用VMWare打开.ovf文件即可。 2 夺…

【Unity动画系统】Animator组件的属性

介绍Animator组件的全部属性 Controller:动画控制器 Avatar:人物骨骼 Apply Root Motion:有一些动画片段自带位移,如果希望自带的位移应用在游戏对象上,那么就勾选;如果自己编写脚本,那么就不…

Xcode 15构建问题

构建时出现的异常: 解决方式: 将ENABLE_USER_SCRIPT_SANDBOXING设为“no”即可!

stm32 hid自定义接收发送程序开发过程记录

cubleMX配置如下 修改端点描述符一次传输的数据大小 根据cubelMX标准在这里修改 编译错误 直接修改(因为没有使用nodef )编译通过 修改报告描述符(默认的描述符无法传输数据) 参考:USB协议详解第10讲(USB描…

Web 渗透测试神器:HackBar 保姆级教程

一、介绍 HackBar 是一个用于浏览器的扩展插件,主要用于进行网络渗透测试和安全评估。它提供了一系列方便的工具和功能,可以帮助用户执行各种网络攻击和测试,包括 XSS、SQL 注入、CSRF、路径穿越等。以下是 HackBar 插件的一些主要特点和功能…

Java使用SpringBoot和EasyExcel 实现动态数据导出实战

Java使用SpringBoot和EasyExcel 实现动态数据导出实战 1、前言2、【资源地址】3、代码示例(demo)4、目前Java实现数据导出为Excel方式5、依赖6、总结 1、前言 工作中有用到将数据导出为Excel的场景,在此记录下。在日常开发中,Excel文件处理是一项常见的…

【VSCode调试技巧】Pytorch分布式训练调试

最近遇到个头疼的问题,对于单机多卡的训练脚本,不知道如何使用VSCode进行Debug。 解决方案: 1、找到控制分布式训练的启动脚本,在自己的虚拟环境的/lib/python3.9/site-packages/torch/distributed/launch.py中 2、配置launch.…

【网络安全】HTTP协议 — 基础

专栏文章索引:网络安全 有问题可私聊:QQ:3375119339 目录 学习目标​ 一、万维网的诞生与发展​编辑 1.万维网的诞生与发展 2.HTTP协议诞生与发展 二、网络基础 1.TCP/IP分层传输 1)TCP/IP协议 2)封装与拆封 …

[二叉树] 二叉树的前中后三序遍历#知二求一

标题:[二叉树] 二叉树的前中后三序遍历#知二求一 水墨不写bug (图片来源于网络) 正文开始: 其实这一类题就是考察对二叉树的结构理解,此类题目的二叉树一般通过数组传入,我们只需根据二叉树的就够特点对数…

用例整体执行及pytest.ini文件

在我们写代码的过程中,一般都是右键或者命令行去执行一个用例 但是当我们写完后,需要整体执行一遍。那应该怎么搞呢? 我们可以在根目录下新建一个main.py或者run.py之类的文件,文件内容如下: if __name__ "__ma…

设计模式 基本认识

文章目录 设计模式的作用设计模式三原则设计模式与类图设计模式的分类 设计模式的作用 设计模式是在软件设计过程中针对常见问题的解决方案的一种通用、可重用的解决方案。设计模式提供了一种经过验证的方法,可以帮助开发人员解决特定类型的问题,并在软…

社区新零售:重构邻里生活圈,赋能美好未来

新时代的邻里脉动 在城市的肌理中,社区作为生活的基本单元,正经历一场由新零售引领的深刻变革。社区新零售,以其独特的商业模式、创新的技术手段和以人为本的服务理念,重新定义了社区商业的边界,重构了邻里生活的形态…

CANoe中周期事件报文的配置方法

方法记录,最近在配置测试环境时遇到了如下的问题: Q:在通信矩阵中该报文应该为CE型报文。但是在DBC中设置模式为CE型时就无法发送,trace中不会出现此报文,将它设置为周期型报文,就能正常在trace中出现。 A:DBC中不能…

安装ROS

前提必须是20.04版本。。。 一、首先,先设置安装源,我们选择国内中科大的安装源 sudo sh -c . /etc/lsb-release && echo "deb http://mirrors.ustc.edu.cn/ros/ubuntu/ lsb_release -cs main" > /etc/apt/sources.list.d/ros-lat…

便携式iv检测仪解析

TH-PV31光伏电站便携式IV功率测试仪是一种专门用于光伏电站运维和故障排查的设备。它具备高精度、快速测试以及便携性等特点,成为光伏电站日常运维中不可或缺的工具。 首先,从工作原理来看,光伏电站便携式IV功率测试仪通过模拟太阳光照射光伏…

.NET C# ORM 瀚高数据库

SqlSugar ORM SqlSugar 是一款 老牌 .NET开源ORM框架,由果糖大数据科技团队维护和更新 ,开箱即用最易上手的ORM 优点 :【生态丰富】【高性能】【超简单】 【功能全面】 【多库兼容】【适合产品】 【SqlSugar视频教程】 支持 &#xff1a…

go版本1.16.5 运行项目出现undefined: math.MaxInt报错

问题描述 go版本 go1.16.5 项目引用了 包go-sqlite3 v1.14.17 github.com/mattn/go-sqlite3 v1.14.17运行报错 # github.com/mattn/go-sqlite3 D:\GoPATH\pkg\mod\github.com\mattn\go-sqlite3v1.14.17\sqlite3_opt_serialize.go:41:26: undefined: math.MaxInt原因分析&…

行为型设计模式

一、责任链设计模式 (一)概念 使多个对象都有机会处理同一个请求,从而避免请求的发送者和接收者之间的耦合关系。将这些对象连成一条链,并沿着这条链传递该请求,直到有一个对象处理它为止。 (二&#xf…

医院手术室麻醉信息管理系统源码 自动生成麻醉的各种医疗文书(手术风险评估表、手术安全核查表)

目录 手术风险评估表 一、患者基本信息 二、既往病史 三、手术相关信息 四、风险评估因素 五、风险评估结果 手术安全核查表 一、患者身份与手术信息核对 二、术前准备核查 三、手术团队与职责确认 四、手术物品与设备核查 五、术中关键步骤核查 六、术后核查 七…

亚马逊的Listing是否会导致店铺关联?

亚马逊账号关联是否有可能因为listing产品引起的呢?也会存在关联,但如果其中一个站点出了问题,另一账号跟着出事的情况不多见(因为亚马逊本来就支持卖家到各个站点开店把产品销售的各个区域)。很多客户有过相关的经验都…