ChatGPT 主流模型GPT-4/GPT-4o mini的参数规模是多大?

微软论文又把 OpenAI 的机密泄露了??在论文中明晃晃写着:

  • o1-preview 约 300B;o1-mini 约 100B
  • GPT-4o 约 200B;GPT-4o-mini 约 8B
  • Claude 3.5 Sonnet 2024-10-22 版本约 175B
  • 微软自己的 Phi-3-7B,这个不用约了就是 7B

英伟达 2024 年初发布 B200 时,就摊牌了 GPT-4 是 1.8T MoE 也就是 1800B,这里微软的数字更精确,为 1.76T

除此之外,论文中给 OpenAI 的 mini 系列,Claude3.5 Sonnet 也都附上了参数,总结如下:

  • o1-preview 约 300B;o1-mini 约 100B

  • GPT-4o 约 200B;GPT-4o-mini 约 8B

  • Claude 3.5 Sonnet 2024-10-22 版本约 175B

  • 微软自己的 Phi-3-7B,这个不用约了就是 7B

虽然论文中后面也有免责声明:

确切数据尚未公开,这里大部分数字是估计的。

但还是有不少人觉得事情没这么简单。

比如为什么唯独没有放谷歌 Gemini 模型的参数估计?或许他们对放出来的数字还是有信心的。

也有人认为,大多数模型都是在英伟达 GPU 上运行的,所以可以通过 token 生成速度来估计。

只有谷歌模型是在 TPU 上运行的,所以不好估计。

而且微软也不是第一次干这事了。

2023 年 10 月,微软就在一篇论文里“意外”曝出 GPT-3.5-Turbo 模型的 20B 参数,在后续论文版本中又删除了这一信息。

微软这篇论文说了什么

实际上,原论文介绍了一项与医学相关的 benchmark——MEDEC。

12 月 26 日就已经发布,不过是比较垂直领域的论文,可能非相关方向的人都不会看,年后才被列文虎克网友们发现。

研究起因是,据美国医疗机构调查显示,有 1/5 的患者在阅读临床笔记时报告发现了错误,而 40% 的患者认为这些错误可能影响他们的治疗。

而且另一方面,LLMs (大语言模型)被越来越多的用于医学文档任务(如生成诊疗方法)。

因此,MEDEC 此番有两个任务。一是识别并发现临床笔记中的错误;二是还能予以改正。

为了进行研究,MEDEC 数据集包含 3848 份临床文本,其中包括来自三个美国医院系统的 488 份临床笔记,这些笔记之前未被任何 LLM 见过。

它涵盖五种类型的错误(诊断、管理、治疗、药物治疗和致病因子),这些错误类型是通过分析医学委员会考试中最常见的问题类型选择的,并由 8 位医疗人员参与错误标注。

而参数泄露即发生在实验环节

按照实验设计,研究者将选取近期主流的大模型和小模型来参与笔记识别和纠错。

而就在介绍最终选定的模型时,模型参数、发布时间一下子都被公开了。

对了,省去中间过程,这项研究得出的结论是:Claude 3.5 Sonnet 在错误标志检测方面优于其他 LLM 方法,得分为 70.16,第二名是 o1-mini。

网友:按价格算合理

每一次,ChatGPT 相关模型架构和参数泄露,都会引起轩然大波,这次也不例外。

2023 年 10 月,微软论文声称 GPT-3.5-Turbo 只有 20B 参数的时候,就有人感叹:难怪 OpenAI 对开源模型这么紧张。

2024 年 3 月,英伟达确认 GPT-4 是 1.8T MoE,而 2000 张 B200 可以在 90 天内完成训练的时候,大家觉得 MoE 已经且仍将是大模型架构趋势。

这一次,基于微软估计的数据,网友们主要有几个关注点:

值得一提的是Claude!!

如果 Claude 3.5 Sonnet 真的比 GPT-4o 还小,那 Anthropic 团队就拥有技术优势。

PS真的觉得claude不错,特别是写代码真的爽:需要升级的童鞋可以参考教程:国内如何使用支付宝注册Claude账号和升级订阅开通Claude Pro - AI is all your need!

以及不相信 GPT-4o-mini 只有 8B 这么小。

不过此前也有人根据推理成本来算,4o-mini 的价格是 3.5-turbo 的 40%,如果 3.5-turbo 的 20B 数字准确,那么 4o-mini 刚好是 8B 左右。

不过这里的 8B 也是指 MoE 模型的激活参数。

总之,OpenAI 大概是不会公布确切数字了。

此前阿尔特曼征集 2024 年新年愿望,最后公布的清单中还有“开源”。2025 年的最新版本里,开源已经被去掉了。

论文地址:https://arxiv.org/pdf/2412.19260

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/502588.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GESP202406 二级【计数】题解(AC)

》》》点我查看「视频」详解》》》 [GESP202406 二级] 计数 题目描述 小杨认为自己的幸运数是正整数 k k k(注:保证 1 ≤ k ≤ 9 1 \le k\le 9 1≤k≤9)。小杨想知道,对于从 1 1 1 到 n n n 的所有正整数中, k…

SpringMVC(六)拦截器

目录 1.什么是拦截器 2.拦截器和过滤器有哪些区别 3.拦截器方法 4.单个拦截器的执行流程 5.使用拦截器实现用户登录权限验证(实例) 1.先在html目录下写一个login.html文件 2.在controller包下写一个LoginController文件 3.加拦截器 1.创建一个conf…

基于Arduino的FPV头部追踪相机系统

构建FPV头部追踪相机:让你置身于遥控车辆之中! 在遥控车辆和模型飞行器的世界中,第一人称视角(FPV)体验一直是爱好者们追求的目标。通过FPV头部追踪相机,你可以像坐在车辆或飞行器内部一样,自由…

jQuery get 方法内操控vue变量(异步ajax请求方法中操控双向绑定的响应式变量)实现异步请求函数内完成变量的双向响应式绑定

// 首先,创建一个Vue实例 new Vue({ el: #app, data: { message: Hello, Vue! }, mounted: function() { var self this; // 使用jQuery发起get请求 $.get(your/api/url, function(data) { // 当请求成功完成后,更新Vue实…

Spring boot接入xxl-job

Spring boot接入xxl-job 导入maven包加入配置增加配置类创建执行器类&#xff08;写job的业务逻辑&#xff09;去控制台中配置job 导入maven包 <dependency><groupId>com.xuxueli</groupId><artifactId>xxl-job-core</artifactId><version>…

【超详细】React SSR 服务端渲染实战

前言 这篇文章和大家一起来聊一聊 React SSR&#xff0c;本文更偏向于实战。你可以从中学到&#xff1a; 从 0 到 1 搭建 React SSR 服务端渲染需要注意什么 react 18 的流式渲染如何使用 文章如有误&#xff0c;欢迎指出&#xff0c;大家一起学习交流&#xff5e;。 &…

25年对AI产业的25点预测以及展望思考

| 2025 大宝同学对于AI 产业 25点预测&#xff0c;他自嘲道&#xff1a;“做不做 250 不重要&#xff0c;重要的是不违背自己的良知&#xff0c;以及对自身物种的坚信。”&#x1f600;ps&#xff1a;因大宝的这篇文章基文涉猎太过于广泛&#xff0c;考虑到某些原因&#xff0c…

Qt之屏幕录制设计(十六)

Qt开发 系列文章 - screencap&#xff08;十六&#xff09; 目录 前言 一、实现原理 二、实现方式 1.创建录屏窗口 2.录屏窗口类定义 3.自建容器对象定义 4.用户使用 5.效果演示 总结 前言 利用Qt实现屏幕录制设计&#xff0c;可以通过使用Qt自带的类QScreen、QPixma…

实时高保真人脸编辑方法PersonaMagic,可根据肖像无缝生成新角色、风格或场景图像。

今天给大家介绍的是一个高保真实时人脸编辑方法PersonaMagic&#xff0c;通过分阶段的文本条件调节和动态嵌入学习来优化人脸定制。该技术利用时序动态的交叉注意力机制&#xff0c;能够在不同阶段有效捕捉人脸特征&#xff0c;从而在生成个性化图像时最大程度地保留身份信息。…

我的创作纪念日——《惊变128天》

我的创作纪念日——《惊变128天》 机缘收获日常成就憧憬 机缘 时光飞逝&#xff0c;转眼间&#xff0c;我已在这条创作之路上走过了 128 天。回顾起 2024 年 8 月 29 日&#xff0c;我满怀忐忑与期待&#xff0c;撰写了第一篇技术博客《讲解LeetCode第1题&#xff1a;两数之和…

常见的框架漏洞复现

1.Thinkphp Thinkphp5x远程命令执行及getshell 搭建靶场 cd vulhub/thinkphp/5-rce docker-compose up -d 首页 漏洞根本源于 thinkphp/library/think/Request.php 中method方法可以进行变量覆盖&#xff0c;通过覆盖类的核心属性filter导致rce&#xff0c;其攻击点较为多&…

云备份项目--服务端编写

文章目录 7. 数据管理模块7.1 如何设计7.2 完整的类 8. 热点管理8.1 如何设计8.2 完整的类 9. 业务处理模块9.1 如何设计9.2 完整的类9.3 测试9.3.1 测试展示功能 完整的代码–gitee链接 7. 数据管理模块 TODO: 读写锁&#xff1f;普通锁&#xff1f; 7.1 如何设计 需要管理…

flutter在windows平台中运行报错

PS D:\F\luichun> flutter run当运行flutter项目时&#xff0c;【解决如下报错】 /C:/flutter/packages/flutter/lib/src/painting/star_border.dart:530:27: Error: The getter Matrix4 isnt defined for the class _StarGenerator.- _StarGenerator is from package:flut…

Synthesia技术浅析(二):虚拟人物视频生成

Synthesia 的虚拟人物视频生成模块是其核心技术之一&#xff0c;能够将文本输入转换为带有同步语音和口型的虚拟人物视频。该模块如下所示&#xff1a; 1.文本输入处理 2.语音生成&#xff08;TTS, Text-to-Speech&#xff09; 3.口型同步&#xff08;Lip Syncing&#xff0…

[Linux]进程间通信-共享内存与消息队列

目录 一、共享内存 1.共享内存的原理 2.共享内存的接口 命令行 创建共享内存 共享内存的挂接 去掉挂接 共享内存的控制 3.共享内存的使用代码 Comm.hpp--封装了操作接口 客户端--写入端 服务器--读取端 4.管道实现共享内存的同步机制 二、消息队列 1.底层原理 2…

凸包(convex hull)简述

凸包&#xff08;convex hull&#xff09;简述 这里主要介绍二维凸包&#xff0c;二维凸多边形是指所有内角都在 [ 0 , Π ] [0,\Pi ] [0,Π]范围内的简单多边形。 凸包是指在平面上包含所有给定点的最小凸多边形。 数学定义&#xff1a;对于给定集合 X X X&#xff0c;所有…

【ArcGISPro/GeoScenePro】检查多光谱影像的属性并优化其外观

数据 https://arcgis.com/sharing/rest/content/items/535efce0e3a04c8790ed7cc7ea96d02d/data 操作 其他数据 检查影像的属性 熟悉检查您正在使用的栅格属性非常重要。

提升汽车金融租赁系统的效率与风险管理策略探讨

内容概要 在汽车金融租赁系统这个复杂的生态中&#xff0c;提升整体效率是每个企业都渴望达成的目标。首先&#xff0c;优化业务流程是实现高效运行的基础。通过分析目前的流程&#xff0c;找出冗余环节并进行简化&#xff0c;能够帮助企业缩短审批时间&#xff0c;提高客户满…

以太网UDP协议栈实现(支持ARP、ICMP、UDP)--FPGA学习笔记26

纯verilog实现&#xff0c;仅使用锁相环IP、FIFO IP&#xff0c;方便跨平台移植。支持ping指令。 以太网系列文章&#xff1a; 以太网ICMP协议(ping指令)——FPGA学习笔记25-CSDN博客 以太网ARP协议——FPGA学习笔记23-CSDN博客 以太网PHY_MDIO通信&#xff08;基于RTL821…

edeg插件/扩展推荐:助力生活工作

WeTab 此插件在我看来有2个作用 1.改变edeg的主页布局和样式,使其更加精简,无广告 2.提供付费webtab Ai(底层是chatGpt) 沉浸式翻译 此插件可翻译网页的内容 假设我们浏览github 翻译前 翻译后 Better Ruler 可以对网页的距离进行测量 适合写前端的小伙伴 用法示例: