​OpenAI最强模型o1系列:开启人工智能推理新时代

前不久OpenAI发布全新模型——o1模型,也就是业界说的“草莓模型”,包含三款型号:OpenAI o1、OpenAI o1-preview和OpenAI o1-mini。

图片

其中,OpenAI o1-mini和 o1-preview已经对用户开放使用:

OpenAI o1:高级推理模型,暂不对外开放;

OpenAI o1-preview:这个版本更注重深度推理处理,每周可以使用50条;

OpenAI o1-mini:这个版本更高效、划算,适用于编码任务,每天都能使用50条。

不过,从OpenAI文章中的附录来看,这次放出的preview和mini似乎都只是o1的阉割版,OpenAI o1更加值得期待。

o1模型推理能力大幅提升

对于为什么不用过去GPT系列命名,而是重新起了一个o系列,OpenAI的首席研究官鲍勃·麦格鲁(Bob McGrew)在一次采访中透露,“o1”这个名字是为了表示“将计数器重置为1”。这意味着OpenAI希望通过这个模型,重新定义人工智能的推理能力,开启一个新的纪元。

根据OpenAI的技术报告显示:

编程方面,模型在Codeforces竞赛上超过了83%的专业人员,要知道这是个很厉害的竞赛;

数学方面,以2024年的美国数学邀请赛为测试集,o1单次生成可解决74%的问题,多次生成后进一步提升正确率到83%,而GPT-4只能解决12%的问题;

科学方面,模型GPQA Dimond测试集正确率78%,超越人类专家70%水平。

图片

和之前的大语言模型相比,全新的o1系列,在复杂推理上的性能又提升到了一个全新级别,主要体现在数据分析、数学和编程方面,可以说拥有了真正的通用推理能力。

图片

OpenAI称,这是它目前为止推理能力最好的模型,下一个模型将在物理、化学和生物学方面达到与博士生接近的水平。

o1模型背后的原理

OpenAI的研究负责人杰里·特沃瑞克(Jerry Tworek)表示,o1背后的训练与前代产品有本质区别。他透露,o1“采用了全新的优化算法和专门为其定制的新训练数据集”。这种新的训练方法,使得o1在处理复杂推理任务时,能够更加准确和高效。

OpenAI的o1模型在设计之初就瞄准了复杂推理任务,这些任务通常需要模型具备高度的逻辑推理能力和深度学习能力。为了实现这一目标,OpenAI采用了强化学习(Reinforcement Learning, RL)作为其核心训练方法。通过强化学习,o1学会了识别并纠正自己的错误,并将复杂的步骤分解为更简单的步骤。在当前方法不起作用时,它还会尝试不同的方法。这个过程显著提高了模型的推理能力。

在OpenAI o1发布后不久,其团队组织了一个 AMA(Ask Me Anything)的活动,团队通过社交媒体下的评论和用户互动。国外网友已经整理了AMA的核心内容,下面做下分享,帮助大家更全面的了解o1系列模型:

01

o1模型的大小和性能

o1-mini比o1-preview小得多且更快,因此未来将提供给免费用户;

o1-preview是o1模型的早期检查点,既不大也不小;

o1-mini在STEM任务中表现更好,但世界知识有限;

与o1-preview相比,o1-mini在某些任务上表现更好,尤其是在代码相关任务中;

与o1-preview相比,o1-mini在某些任务上表现更好,尤其是在代码相关任务中;

o1的输入Tokent算方式与GPT-4o相同,使用相同的分词器;

o1-mini可以比o1-preview探索更多思维链。

02

输入Token上下文和模型能力

更大的输入上下文即将为o1模型提供;

 o1模型能够处理更长、更开放的任务,较少需要像GPT-4o那样进行输入分块;

o1可以在给出答案之前生成长推理链,这不同于之前的模型;

当前无法在链式推理(CoT)过程中暂停推理以添加更多上下文,但正在为未来模型探索此功能。

03

工具、功能和即将推出的特性

o1-preview目前还不使用工具,但计划支持函数调用、代码解释器和浏览;

工具支持、结构化输出和系统提示将在未来更新中添加;

用户最终可能会获得对思考时间和Token限制的控制权;

正在计划启用流式传输并在API中考虑推理进展;

多模态能力内置于o1中,旨在在诸如MMMU等任务中达到最先进的表现。

04

链式推理(CoT)

o1在推理过程中生成隐藏的推理链;

目前没有计划向API用户或ChatGPT公开CoT Token;

CoT Token被总结,但无法保证其完全忠实于实际推理过程;

提示词中的指令可以影响模型如何思考问题;使用强化学习(RL)改进了o1的链式推理性能,GPT-4o无法仅通过提示词匹配其COT表现;

思维阶段看起来较慢,因为它总结了思维过程,但生成答案的速度通常更快。

05

模型开发和研究见解

o1通过强化学习训练以实现推理性能;

该模型在诗歌等横向任务中展现了创造性思维和强大的表现;

o1的哲学推理和泛化能力 (例如破译密码)令人印象深刻;

研究人员使用o1创建了一个GitHub机器人,该机器人可以提醒正确的CODEOWNERS进行代码审查;

在内部测试中,o1通过对自己提出困难问题来评估其能力;

正在添加广泛的世界领域知识,未来版本会有所改进;

计划为未来迭代的o1-mini提供更新的数据 (当前截至2023年10月)。

06

提示技巧和最佳实践

o1受益于提供边界情况或推理风格的提示技巧;

与早期模型相比,o1模型对提示中的推理线索更为敏感;

在检索增强生成(RAG)中提供相关的上下文可以改善性能;不相关的部分可能会削弱推理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/429400.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言之预处理详解(完结撒花)

目录 前言 一、预定义符号 二、#define 定义常量 三、#define定义宏 四、宏与函数的对比 五、#和## 运算符 六、命名约定 七、#undef 八、条件编译 九、头文件的包含 总结 前言 本文为我的C语言系列的最后一篇文章,主要讲述了#define定义和宏、#和##运算符、各种条件…

植物大战僵尸【源代码分享+核心思路讲解】

植物大战僵尸已经正式完结,今天和大家分享一下,话不多说,直接上链接!!!(如果大家在运行这个游戏遇到了问题或者bug,那么请私我谢谢) 大家写的时候可以参考一下我的代码思…

前端工程化4:从0到1构建完整的前端监控平台

前言 一套完整的前端监控系统的主要部分: 数据上报方式数据上送时机性能数据采集错误数据采集用户行为采集定制化指标监控sdk 监控的目的: 一、数据上报方式 本文的方案是,优先navigator.sendBeacon,降级使用1x1像素gif图片…

群晖NAS使用Docker本地部署网页版Ubuntu系统并实现无公网IP远程访问

文章目录 前言1. 下载Docker-Webtop镜像2. 运行Docker-Webtop镜像3. 本地访问网页版Linux系统4. 群晖NAS安装Cpolar工具5. 配置异地访问Linux系统6. 异地远程访问Linux系统7. 固定异地访问的公网地址 前言 本文旨在详细介绍如何在群晖NAS部署docker-webtop,并结合c…

《财富之眼:用经济思维看清世界》pdf电子书下载

《财富之眼:用经济思维看清世界》pdf电子书下载 内容简介 一切社会现象都是经济现象,我们只能赚到自己认知范围内的 钱。我国社会主要矛盾已经转化为人民日益增长的美好生活需要和不 平衡不充分的发展之间的矛盾,其中“不平衡不充分”很大程…

【网络】高级IO——Reactor版TCP服务器

目录 1.什么是Reactor 1.1.餐厅里的Reactor模式 2.Reactor的由来 2.1.单 Reactor 单进程 / 线程 2.2.单 Reactor 多线程 / 多进程 2.3.多 Reactor 多进程 / 线程 3.实现单 Reactor 单进程版本的TCP服务器 3.1.Connection类 3.2.TcpServer类 3.3.Connection的真正用处 …

C++—vector的常见接口与用法(正式进入STL)

目录 0.提醒 1.介绍 2.构造 1.正常构造 2.默认值构造 3.调用默认构造函数构造 3.遍历 1.迭代器 2.范围for 3.下标访问 4.容量 1.capacity:返回当前容器的容量 2.reserve:如果传的k比当前容量大,则扩容到比k大或者等于k的数&…

Windows10安装cuda11.3.0+cudnn8.5.0,以及创建conda虚拟环境(pytorch)

1、检查电脑驱动版本为561.09&#xff0c;选择cuda版本&#xff0c;下图可知cuda版本<12.6。 nvidia-smi #查看驱动版本&#xff0c;以及最大可以安装的cuda版本 2、Anaconda3-2024.06-1-Windows-x86_64.exe下载&#xff1a; 官网&#xff1a;https://www.baidu.com/link?…

STL之vector

vector简单介绍 vector是一个STL的一个容器&#xff0c;行为类似于变成数组&#xff0c;也就是存储空间是连续的&#xff0c;同时其空间大小又是动态可变的。 vector访问元素的效率很高可以通过下标直接访问&#xff0c;但是其占用的空间很多&#xff0c;插入删除元素的效率很…

PostMan使用变量

环境变量 使用场景 当测试过程中&#xff0c;我们需要对开发环境、测试环境、生产环境进行测试 不同的环境对应着不同的服务器&#xff0c;那么这个时候我们就可以使用环境变量来区分它们 避免切换测试环境后&#xff0c;需要大量的更改接口的url地址 全局变量 使用场景 当…

无人机集群路径规划:麻雀搜索算法(Sparrow Search Algorithm, SSA)​求解无人机集群路径规划,提供MATLAB代码

一、单个无人机路径规划模型介绍 无人机三维路径规划是指在三维空间中为无人机规划一条合理的飞行路径&#xff0c;使其能够安全、高效地完成任务。路径规划是无人机自主飞行的关键技术之一&#xff0c;它可以通过算法和模型来确定无人机的航迹&#xff0c;以避开障碍物、优化…

Linux shell编程学习笔记81:zcat命令——快速查看压缩文件内容

0 引言 在 Linux shell编程学习笔记80&#xff1a;gzip命令——让文件瘦身-CSDN博客https://blog.csdn.net/Purpleendurer/article/details/141862213?spm1001.2014.3001.5501中&#xff0c;我们使用gzip命令可以创建压缩文件。那么&#xff0c;我们可以使用zcat命令来查看压…

Apache CVE-2021-41773 漏洞攻略

1.环境搭建 docker pull blueteamsteve/cve-2021-41773:no-cgid docker run -d -p 8080:80 97308de4753d 2.使用poc curl http://192.16.10.190:8080/cgi-bin/.%2e/.%2e/.%2e/.%2e/etc/passwd 3.工具验证

双击热备 Electron网页客户端

安装流程&#xff1a; 1.下载node.js安装包进行安装 2.点击Next; 3.勾选&#xff0c;点击Next; 4.选择安装目录 5.选择Online 模式 6.下一步执行安装 。 7.运行cmd,执行命令 path 和 node --version&#xff0c;查看配置路径和版本 8.Goland安装插件node.js 9.配置运行…

【数据结构与算法 | 灵神题单 | 自底向上DFS篇】力扣508, 1026, 951

1. 力扣508&#xff1a;出现次数最多的子树元素和 1.1 题目&#xff1a; 给你一个二叉树的根结点 root &#xff0c;请返回出现次数最多的子树元素和。如果有多个元素出现的次数相同&#xff0c;返回所有出现次数最多的子树元素和&#xff08;不限顺序&#xff09;。 一个结…

JVM 调优篇7 调优案例4- 线程溢出

一 线程溢出 1.1 报错信息 每个 Java 线程都需要占用一定的内存空间&#xff0c;当 JVM 向底层操作系统请求创建一个新的 native 线程时&#xff0c;如果没有足够的资源分配就会报此类错误。报错信息&#xff1a;java.lang.outofmemoryError:unable to create new Native Thr…

【leetcode】树形结构习题

二叉树的前序遍历 返回结果&#xff1a;[‘1’, ‘2’, ‘4’, ‘5’, ‘3’, ‘6’, ‘7’] 144.二叉树的前序遍历 - 迭代算法 给你二叉树的根节点 root &#xff0c;返回它节点值的 前序 遍历。 示例 1&#xff1a; 输入&#xff1a;root [1,null,2,3] 输出&#xff1a;[1,…

AI时代,服务器厂商能否打破薄利的命运?

文&#xff5c;刘俊宏 编&#xff5c;王一粟 AI大模型正在引发新一轮的“算力焦渴”。 近日&#xff0c;OpenAI刚发布的o1大模型再次刷新了大模型能力的上限。对比上一次迭代的版本&#xff0c;o1的推理能力全方位“吊打”了GPT-4o。更优秀的能力&#xff0c;来自与o1将思维…

大学生必看!60万人在用的GPT4o大学数学智能体有多牛

❤️作者主页&#xff1a;小虚竹 ❤️作者简介&#xff1a;大家好,我是小虚竹。2022年度博客之星&#x1f3c6;&#xff0c;Java领域优质创作者&#x1f3c6;&#xff0c;CSDN博客专家&#x1f3c6;&#xff0c;华为云享专家&#x1f3c6;&#xff0c;掘金年度人气作者&#x1…

利用QEMU安装一台虚拟机的三种方法

文章目录 宿主机的选择方法一&#xff1a;直接用qemu源码安装步骤1&#xff1a;下载好qemu源码&#xff0c;这里我们用qemu-5.1.0步骤2&#xff1a;编译步骤3&#xff1a;创建一个系统盘步骤4&#xff1a;用步骤2编译的qemu-system-x86_64 启动一台Linux虚拟机步骤5&#xff1a…