OpenAI 刚刚推出 o1 大模型!!突破LLM极限

北京时间 9 月 13 日午夜,OpenAI 正式发布了一系列全新的 AI 大模型,专门用于应对复杂问题。

这一新模型的出现代表了一个重要突破,其具备的复杂推理能力远远超过了以往用于科学、代码和数学等领域的通用模型,能够解决比之前更难的难题。


没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:

升级ChatGPT-4o Turbo步骤icon-default.png?t=O83Ahttps://www.zhihu.com/pin/1768399982598909952

据 OpenAI 介绍,此次在 ChatGPT 和大模型 API 中发布的是该系列的首款模型——o1-preview,当前仅为预览版。

除 o1 外,OpenAI 还展示了下一次更新的开发情况及其评估结果。o1 模型一经问世便创造了多项历史记录。

首先,o1 是此前从山姆・奥特曼到 OpenAI 科学家们一直在「高调宣传」的草莓大模型,它展现了真正的通用推理能力。

在多个复杂基准测试中表现卓越,相比于 GPT-4o 显示出了显著的提升,使大模型的能力从“乏善可陈”跃升到卓越水平。

 o1 无需专门训练即可在数学奥赛中获得金牌,甚至在博士级别的科学问答中超越了人类专家。

Cognition AI 是开发首个 AI 软件工程师 Devin 的公司,该公司表示过去几周一直与 OpenAI 紧密合作,利用 Devin 评估 o1 的推理能力。

结果显示,与 GPT-4o 相比,o1 系列模型在处理代码智能体系统方面取得了巨大进展。

在实际应用中,o1 上线后,ChatGPT 在回答问题时变得更为深思熟虑,而非立即作答。

这种变化类似于人类大脑中的系统 1 和系统 2,ChatGPT 已经从只使用系统 1(快速、自动、直观、容易出错)进化到能够使用系统 2 的思维方式(缓慢、深思熟虑、有意识、可靠)。

这种改进使其能够解决之前无法解决的问题。从今天的 ChatGPT 用户体验来看,这虽然只是一个小进步,但在复杂的数学和代码问题上,差异变得非常明显。更重要的是,未来的发展路径已经开始清晰展现。

为了强调 o1 相对于 GPT-4o 在推理性能上的改进,OpenAI 对其进行了多项人类考试和机器学习基准测试。

实验结果显示,在绝大多数推理任务中,o1 的表现明显优于 GPT-4o。在许多需要高强度推理的基准测试中,o1 的表现可与人类专家相媲美。

最近的一些前沿模型在 MATH 和 GSM8K 上的表现非常出色,导致这些基准测试在区分模型时不再有效。

因此,OpenAI 在 AIME 测试中对 o1 进行了评估,AIME 是一项测试美国最优秀高中数学学生的考试。

在 2024 年的 AIME 考试中,GPT-4o 平均仅解决了 12% (1.8/15) 的问题,而 o1 在每个问题只有一个样本的情况下平均解答正确率达 74% (11.1/15),在 64 个样本一致的情况下为 83% (12.5/15),使用学习评分函数对 1000 个样本进行重新排序时,达到了 93% (13.9/15)。

13.9 分的成绩足以进入全美前 500 名,并高于美国数学奥林匹克竞赛的分数线。

OpenAI 还在 GPQA Diamond 基准测试上评估了 o1,这是一个测试化学、物理和生物学专业知识的困难智力基准。

为了与人类进行对比,OpenAI 邀请了具有博士学位的专家来回答 GPQA Diamond 的问题。

实验结果显示,o1 在该基准测试中表现优于人类专家,成为第一个在此基准上实现这一成就的模型。

需要注意的是,这些结果并不意味着 o1 在所有方面都比博士更有能力——它只是更擅长解决某些博士也应该解决的问题。在其他几个机器学习基准测试中,o1 也实现了新的最先进水平(SOTA)。

启用视觉感知能力后,o1 在 MMMU 基准上得分 78.2%,成为第一个在表现上与人类专家相当的模型。此外,o1 在 57 个 MMLU 子类别中的 54 个上优于 GPT-4o。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

推荐阅读:

OpenAI的《Her》为何迟迟未能面世?

GPT-4o无法取代程序员! IEEE研究显示,困难编码正确率仅为0.66%!_chatgpt4o正确率多少

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/423701.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

近期常见软件测试面试题

1、软件的生命周期: 又称为软件生命期、生存期,是指从形成开发软件概念起,所开发的软件使用以后,直到失去使用价值消亡为止的整个过程。 一般来说,整个生命周期包括:计划(定义)、开…

上汽大众:存储成本节约85%,查询性能提升5倍|OceanBase案例

近日,上汽大众汽车有限公司(简称“上汽大众”)的积分卡券等关键业务系统,已成功升级至 OB Cloud 云数据库。借助 OceanBase 原生分布式数据库的卓越性能与先进技术,实现了存储成本的大幅降低,高达85%&#…

初级软件测试面试题汇总

一、请描述如何划分缺陷与错误严重性和优先级别? 给软件缺陷与错误划分严重性和优先级的通用原则: (1)表示软件缺陷所造成的危害和恶劣程度。 (2)优先级表示修复缺陷的重要程度和次序。 严重性&#xf…

Python 课程6-Pandas 和 Matplotlib库

前言 在数据科学和数据分析领域,Pandas 和 Matplotlib 是两个最常用的 Python 库。Pandas 主要用于数据处理和分析,而 Matplotlib 则用于数据的可视化。它们的结合能够帮助我们快速、直观地展示数据的趋势和规律。在这篇详细的教程中,教程中将…

自动驾驶:LQR、ILQR和DDP原理、公式推导以及代码演示(六、ILQR正则化和line search)

(六)ILQR正则化和line search 1. ILQR正则化 在iLQR中,我们通常线性化系统动力学并对目标函数进行二阶近似。在反向传播步骤中,我们需要计算逆矩阵(控制变量对目标函数的二阶导数矩阵),用以更…

驰域货车四路监控ts视频格式化恢复方法

不少大货车都使用了驰域货车监控,一般是至少装四路,前后左右,有的还会车顶加一路。驰域货车记录仪特殊的地方在于:其采用了一种上古时期的视频格式----TS视频流。 故障存储: 128G卡/fat32 故障现象: 客户提供的信息是格式化后…

软件安装攻略:EmEditor编辑器下载安装与使用

EmEditor是一款在Windows平台上运行的文字编辑程序。EmEditor以运作轻巧、敏捷而又功能强大、丰富著称,得到许多用户的好评。Windows内建的记事本程式由于功能太过单薄,所以有不少用户直接以EmEditor取代,emeditor是一个跨平台的文本编辑器&a…

【STM32】外部中断

当程序正常运行执行main函数,此时如果外部中断来了,执行外部中断函数,实现相应的功能,然后就可以回到main. 一般stm32芯片每个引脚都有自己的外部中断,但是为了限制,会有一个中断线,对应一个中断…

搭建内网文件服务器(FTP),以及实现内网Gitee

一、实现windows搭建FTP,实现文件共享和管理 具体步骤: 1.打开控制面板,搜索功能 2.打开这几个配置 3.打开IIS,添加FTP站点即可 二、实现内网Gitee 参考博客: Gitblit服务器搭建及Git使用-CSDN博客 jdk1.8.0的安…

零基础国产GD32单片机编程入门(二十五)USB口介绍及CDC类虚拟串口通讯详解及源码

文章目录 一.概要二.USB2.0基本介绍及虚拟串口介绍三.GD32单片机USB模块框图四.GD32单片机USB设备模式五.GD32F103C8T6 USB设备CDC类六.配置一个USB虚拟串口收发例程七.工程源代码下载八.小结 一.概要 GD32F103C8T6 USB虚拟串口是一种采用GD32F103C8T6单片机,通过U…

vscode中使用go环境配置细节

1、在docker容器中下载了go的sdk 2、在/etc/profile.d/go.sh里填入如下内容: #!/bin/bashexport GOROOT/home/ud_dev/go export PATH$GOROOT/bin:$PATH3、设置go env go env -w GOPROXYhttps://goproxy.cn,direct go env -w GO111MODULEon 4、重启这个容器&#…

Java之ArrayList

1.ArrayList的简介 在集合框架中,ArrayList是一个普通的类,实现了List接口,具体框架图如下: ArrayList是以泛型方式实现的,使用时必须要先实例化ArrayList实现了RandomAccess接口,表明ArrayList支持随机…

springboot对数据库进行备份+对一个文件夹内的文件按时间排序,只保留最近的8个文件

首先,对数据库进行备份,用到的命令: mysqldump --opt -h 192.168.1.200 --userroot --passwordxxx --result-fileE://data//20240911141400.sql --default-character-setutf8 xxx(数据库名) 直接上代码 配置文件部分…

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 GPT系列论文速通论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具…

app抓包 chrome://inspect/#devices

一、前言: 1.首先不支持flutter框架,可支持ionic、taro 2.初次需要翻墙 3.app为debug包,非release 二、具体步骤 1.谷歌浏览器地址:chrome://inspect/#devices qq浏览器地址:qqbrowser://inspect/#devi…

C++:C++的IO流

✨✨✨学习的道路很枯燥,希望我们能并肩走下来! 文章目录 目录 文章目录 前言 一 C语言的输入与输出 二 流 三 CIO流 ​编辑 3.1 C标准IO流 3.2 C文件IO流 3.3 stringstream的简单介绍 四 CIO流的效率问题 总结 前言 本篇详细介绍了进一步介绍C中的IO流&#…

点可云ERP进销存V8版本PHPstudy(小皮)安装讲解

安装视频讲解链接: 点可云ERP教程 - PHPstudy安装篇_哔哩哔哩_bilibili 1、下载准备 PHPstudy可在官网下载(https://www.xp.cn/)不推荐在Linux系统安装小皮面板,Linux系统还是使用宝塔较好, 在PHPstudy官网下载时需要…

Rust运算符

【图书介绍】《Rust编程与项目实战》-CSDN博客 《Rust编程与项目实战》(朱文伟,李建英)【摘要 书评 试读】- 京东图书 (jd.com) https://blog.csdn.net/brucexia/category_12779443.html 前面已经学习了变量和常量,本节开始对它们进行操作&#xff0c…

第三方软件测评机构分享:软件性能测试的测试方法和内容

软件性能测试是对软件系统在特定负载和条件下的性能进行评估的过程。它旨在确定软件的响应时间、稳定性、资源消耗及其可扩展性,以确保其在实际环境中能够满足用户的需求。通过性能测试,开发团队能够发现潜在的瓶颈问题,优化应用程序架构&…

前端:JavaScript 实现类

文章目录 1. Es6-类-class2. Es6-class 实现继承3. Es6-class 静态属性和私有属性4. Es5-寄生组合式继承 1. Es6-类-class 类是创建对象的模板,用代码封装数据以处理该数据,js中的类建立在原型上。 如何定义类,首先需要关键字 class&#x…