【LLM】OpenAI 的DAY12汇总和o3介绍

note

  • o3 体现出的编程和数学能力,不仅达到了 AGI 的门槛,甚至摸到了 ASI(超级人工智能)的边。

Day 1:o1完全版,开场即巅峰

12天发布会的开场即是“炸场级”更新——o1完全版。相比此前的预览版本,o1实现了质的飞跃。

在国际数学奥林匹克预选赛题目(AIME 2024)和编程能力测试(Codeforces)中,o1的表现分别提升了50%,复杂问题处理的错误率下降了34%。此外,多模态识别的加入,让o1的应用场景成倍增长。新增的功能使其能够处理图像和文本的综合任务,例如医生分析医学影像或设计师获取创意建议。o1的实用性大幅提升,但代价也不低。o1的高性能也伴随着高价格:只有200美元的Pro版订阅用户才能享受无限使用,而普通用户仅限每日20次。

Day 2:o1-mini强化微调,专业领域精准打击

第二天的更新聚焦于o1-mini模型的强化微调。这项技术通过强化学习方向的调整,使模型的推理能力得到显著提升。

尤其在医疗、法律等复杂领域,仅需“几十个例子”甚至12个例子,就能完成有效的微调。数据显示,强化后的o1-mini模型在测试中的通过率比传统微调模型提升24%,相比未强化版本更是高出82%。

Day 3:Sora,姗姗来迟的遗憾

等待了10个月后,Sora终于亮相。这款生成视频的工具支持最长20秒、分辨率达1080p的视频生成,并配备了创新的故事板功能。

用户可以通过时间轴设计场景卡片,串联多个提示词,系统自动生成过渡效果。此外,Remix、Blend和Loop三项工具提供了更灵活的编辑能力。然而,Sora的模型能力并未升级,导致生成效果频频翻车:运动逻辑混乱、物理效果缺失,甚至出现“鬼影”。尽管OpenAI为其配备了专业工具以及故事板功能,但模型本身的能力不足严重拖了后腿。更让人不满的是,Plus用户每月仅能使用50次,Pro用户也只能在“慢速”模式下享受无限使用。

Day 4:Canvas,AI多功能工作台

Canvas的发布,是OpenAI尝试从聊天机器人向生产力工具转型的标志。Canvas是OpenAI首次尝试打造AI版Google Docs的产品。

它将智能写作、代码协作和AI智能体集成到一个工作台中:

  • 智能写作:提供实时编辑建议,优化文本质量。
  • 代码协作:内置WebAssembly Python模拟器,实现无延迟的编程体验,并具备理解代码意图的能力。
  • AI智能体:用户可定制化AI助手,完成从撰写邮件到管理任务的操作。
    Canvas的三大功能无缝集成,构成了一个多功能的创作工作室。然而,单独对比功能,其文本编辑不如Claude的Artifacts,编程便利性也逊色于Cursor。

Day 5 & Day 11:与苹果深度合作

在第五天和第十一天,OpenAI宣布了与苹果的合作成果。这次整合主要体现在三个方面:

  • 与Siri协同:Siri可将复杂任务移交给ChatGPT处理。
  • 写作工具增强:支持从零开始撰写文档、细化和总结内容。
  • 视觉智能:通过iPhone 16的相机控制功能,用户可以深入了解拍摄对象。

此外,第十一天的更新还赋予ChatGPT更多Mac工具的调用权限。这次合作,不仅巩固了OpenAI的行业地位,也显示出苹果对AI领域的更高依赖。

Day 6:视频通话功能,“HER”成真

视频通话功能让用户可以通过镜头与GPT实时互动。这一功能虽然早在5月的演示中亮相,但此次正式上线仍让人兴奋。它不仅拓展了AI的交互方式,还让人联想到电影《HER》中与AI深度连接的场景。

Day 7-10:小更新,凑数之作

这几天的更新显得较为平淡。从Projects项目功能到ChatGPT搜索升级,再到o1图像输入和4o高级语音API开放,这几天的更新被评价为“可有可无”。

  • Projects项目功能:集中管理项目文件和对话。
  • ChatGPT搜索升级:支持对话内搜索和多模态输出。
  • o1图像输入与4o高级语音API:功能开放,但无重大创新。

尽管如此,集中对话文件管理和多模态搜索等功能,仍有一定实用价值。

Day 12:GPT-o3,终极王炸

在最后一天,OpenAI用GPT-o3的发布引爆全场。

  • 相较于o1,o3在多个领域实现了跨越式进步:
  • Codeforces评分:2727,全球排名175,超过99%人类程序员。
  • 博士级科学问题(GPQA):87.7%,远超人类平均水平。
  • ARC-AGI基准测试:87.5%,展现了新型任务适应能力的飞跃。

尤其是ARC-AGI测试得分,从GPT-3的0%到GPT-4o的5%,再到o3的87.5%。
在这里插入图片描述
尽管o3的高算力成本暂时限制了普及,但它证明了Scaling Law依然有效,并将AI的发展推向新的高峰。

OpenAI o3:

  1. o3在Codeforces编程竞技中击败了99.9%的程序员,在168076名程序员中排名175名。甚至o3的作者都打不过o3。

  2. o3在编程解决真实世界需求方面也比o1有明显提升,在SWE-Bench软件开发测试中,之前发布的o1-preview是41.3%,o3是71.7%,也就是70%的真实世界需求,o3可以直接做对,并通过单元测试。也就意味着只有剩下30%的工作需要人类程序员去编码完成了,而这部分工作AI也可以帮助人类程序员大大提升效率。

  3. 在AIME 2024数学测试中做对了96.7%,相当于在美国数学奥林匹克竞赛上只答错了一道题。

  4. 在博士级别科学问题测试的GPQA Diamond中超过o1 10个百分点,而o1已经基本上是人类博士生的平均水平。

  5. 图形逻辑推理的ARC-AGI,o3经过微调后,达到87.5%,超过人类平均水平(85%)。

RFT:SFT只知道最优答案,RFT看到过多条路径,按照打分优化得分最高的那条路径生成的概率。可以简单理解为传统的PPO需要依赖训练好的奖励模型,而RFT这里甚至可以用专家规则来代替奖励模型打分。但前提是需要o1这种能生成搜索解空间的CoT大模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/497395.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis缓存知识点汇总

Redis缓存知识点汇总 请先思考如下问题 1.Redis的缓存击穿,穿透,雪崩是什么意思?原因和解决方案有哪些? 2.Redis支持宕机数据恢复,他的持久化方式及其原理是什么? 3.如何保证双写一致性,即如何保…

Gitlab17.7+Jenkins2.4.91实现Fastapi/Django项目持续发布版本详细操作(亲测可用)

一、gitlab设置: 1、进入gitlab选择主页在左侧菜单的下面点击管理员按钮。 2、选择左侧菜单的设置,选择网络,在右侧选择出站请求后选择允许来自webhooks和集成对本地网络的请求 3、webhook设置 进入你自己的项目选择左侧菜单的设置&#xff…

仓颉编程笔记1:变量函数定义,常用关键字,实际编写示例

本文就在网页版上体验一下仓颉编程,就先不下载它的SDK了 基本围绕着实际摸索的编程规则来写的 也没心思多看它的文档,写的不太明确,至少我是看的一知半解的 文章提供测试代码讲解、测试效果图: 目录 仓颉编程在线体验网址&…

Linux 文件 I/O 基础

目录 前言 一、文件描述符(File Descriptor) 二、打开文件(open 函数) 三、读取文件(read 函数) 四、写入文件(write 函数) 五、关闭文件(close 函数) …

Vue项目中env文件的作用和配置

在实际项目的开发中,我们一般会经历项目的开发阶段、测试阶段和最终上线阶段,每一个阶段对于项目代码的要求可能都不尽相同,那么我们如何能够游刃有余的在不同阶段下使我们的项目呈现不同的效果,使用不同的功能呢?这里…

20241130 RocketMQ本机安装与SpringBoot整合

目录 一、RocketMQ简介 ???1.1、核心概念 ???1.2、应用场景 ???1.3、架构设计 2、RocketMQ Server安装 3、RocketMQ可视化控制台安装与使用 4、SpringBoot整合RocketMQ实现消息发送和接收? ? ? ? ? 4.1、添加maven依赖 ???4.2、yaml配置 ???4.3、…

“宠物服务的跨平台整合”:多设备宠物服务平台的实现

2.1 SSM框架介绍 本课题程序开发使用到的框架技术,英文名称缩写是SSM,在JavaWeb开发中使用的流行框架有SSH、SSM、SpringMVC等,作为一个课题程序采用SSH框架也可以,SSM框架也可以,SpringMVC也可以。SSH框架是属于重量级…

Word表格另起一页解决办法

Word表格另起一页解决办法 表格设置根据内容自动调整,取消指定高度第1步 第2步

iOS Masonry对包体积的影响

01 Masonry介绍 Masonry是iOS在控件布局中经常使用的一个轻量级框架,Masonry让NSLayoutConstraint使用起来更为简洁。Masonry简化了NSLayoutConstraint的使用方式,让我们可以以链式的方式为我们的控件指定约束。 常用接口声明与实现: 使用方式…

抖去推碰一碰系统技术源码/open SDK转发技术开发

抖去推碰一碰系统技术源码/open SDK转发技术开发 碰一碰智能系统#碰碰卡系统#碰一碰系统#碰一碰系统技术源头开发 碰碰卡智能营销系统开发是一种集成了人工智能和NFC技术的工具,碰碰卡智能营销系统通过整合数据分析、客户关系管理、自动化营销活动、多渠道整合和个…

JS中的闭包和上下文

变量提升 和 函数提升 这里要提到一个提升的概念,即在JS中,在解析代码之前还有一个预处理的过程,这个过程中会把部分变量和函数声明提前到代码的最顶部, 会在其他所有代码之前执行。虽然当我们按照规范(严格模式或者T…

17_HTML5 Web 存储 --[HTML5 API 学习之旅]

HTML5 Web 存储(Web Storage)是 HTML5 引入的一种在用户浏览器中存储数据的机制。它提供了比传统的 cookies 更加方便和强大的功能,包括更大的存储空间、更好的性能以及更简单的 API。Web 存储主要分为两种类型:localStorage 和 s…

如何在 Ubuntu 22.04 上使用 systemctl 管理 systemd 服务教程

简介 Systemd 是许多现代 Linux 发行版提供核心功能的默认服务管理器,而 systemctl 是用户与 systemd 服务交互的方式。这使得 systemctl 成为 Linux 管理员工具箱中重要的一部分。 在本文中,我们将探讨如何使用 systemctl 在使用 systemd 的系统上执行…

Unity3d UGUI如何优雅的实现Web框架(Vue/Rect)类似数据绑定功能(含源码)

前言 Unity3d的UGUI系统与Web前端开发中常见的数据绑定和属性绑定机制有所不同。UGUI是一个相对简单和基础的UI系统,并不内置像Web前端(例如 Vue.js或React中)那样的双向数据绑定或自动更新UI的机制。UGUI是一种比较传统的 UI 系统&#xff…

影刀进阶应用 | 知乎发布想法

文章目录 影刀进阶应用 | 知乎发布想法一、流程流程解释: 二、单条想法发布2.1 素材生产2.2 **进入发布流程**2.3 **输入文本**2.4 插入图片2.5 发布查看 三、批量发布 影刀进阶应用 | 知乎发布想法 一、流程 流程解释: 素材生产 :用AI生成待…

Win Server远程提示密码到期

背景 由于安全问题,取消了堡垒机直接托管资产的模式,需要用户通过堡垒机先登录操作机,然后通过操作机运维对应服务器 问题现象 调整运维模式后,发现原来堡垒机直接运维服务器时候,用户密码到期,可以要求…

GXUOJ-算法-第二次作业

1.矩阵连&#xff08;链&#xff09;乘 问题描述 GXUOJ | 矩阵连乘 代码解答 #include<bits/stdc.h> using namespace std;const int N50; int m[N][N]; int p[N]; int n;int main(){cin>>n;//m[i][j] 存储的是从第 i 个矩阵到第 j 个矩阵这一段矩阵链相乘的最小…

在线学习平台-项目技术点-前台

报错解决方法 1、P166-尚硅谷_在线教育_Nuxt整合错误_nuxt friendly-errors-CSDN博客 2、P168 3、P170 4、P173 npm remove axios npm install axios0.18.0 1、服务端渲染技术NUXT 1.1服务端渲染SSR 服务端渲染又称SSR (Server Side Render)是在服务端完成页面的内容&…

【探花交友】day03—MongoDB基础

目录 课程介绍 1、通用设置 1.1 需求分析 1.2 查询通用设置 1.2 陌生人问题 1.3 通知设置 1.4 黑名单管理 2、MongoDB简介 1.1、MongoDB简介 1.2、MongoDB的特点 1.3 数据类型 3、MongoDB入门 2.1、数据库以及表的操作 2.2、新增数据 2.3、更新数据 2.4、删除数…

基于Spring Boot + Vue3实现的在线商品竞拍管理系统源码+文档

前言 基于Spring Boot Vue3实现的在线商品竞拍管理系统是一种现代化的前后端分离架构的应用程序&#xff0c;它结合了Java后端框架Spring Boot和JavaScript前端框架Vue.js的最新版本&#xff08;Vue 3&#xff09;。该系统允许用户在线参与商品竞拍&#xff0c;并提供管理后台…