Reasoning in High Gear 推理加速发展
关键信息:OpenAI推出GPT - 3 - mini,它是GPT - 1模型后续版本,在速度、成本及特定领域能力上有显著优势。
模型特性
-
推理强度可选:提供低、中、高三个推理 “强度” 级别,不同级别消耗不同数量推理令牌,对应不同时间与成本来生成思维链。
-
训练与微调:训练集着重科学技术领域结构化问题解决,微调采用基于思维链数据的强化学习。
-
令牌处理:类似GPT - 1系列,对推理操作处理的令牌收费且对用户隐藏,这点与部分竞争模型不同。
-
输入输出限制:最大输入200,000个令牌,最大输出100,000个令牌,知识截止到2023年10月。
性能表现
-
优势领域:在数学(如2024年AIME)、科学(GPQA Diamond)和编程(Codeforces和LiveBench)等多个基准测试中优于GPT - 1和GPT - 1 - mini。高强度或中等强度时比GPT - 1表现好,低强度时比GPT - 1 - mini好。
-
薄弱领域:常识测试表现欠佳,如在MMLU和SimpleQA测试中,即便设置高强度,成绩也不如GPT - 1和GPT - 4o。
功能特性:支持函数调用、结构化输出(JSON格式)、开发者消息以及流式传输,而GPT - 1 - mini不具备这些功能。
使用成本与限制
-
API费用:API访问每百万输入/输出令牌1.10美元/4.40美元,缓存输入令牌每百万0.55美元,批量API费用减半。对比GPT - 1和GPT - 1 - mini,费用有明显降低,且GPT - 1 - mini或逐步淘汰。
-
调用限制:OpenAI依用户API使用频率和消费金额限制调用次数,每分钟请求数和令牌数限制从3级的5,000次请求/400万个令牌到5级的30,000次请求/1.5亿个令牌,批量请求限制更高。
安全提示:系统卡片突出训练中的安全措施,因其编程能力提升,存在中等程度被自主滥用风险,是首个被标记此风险的OpenAI模型。
用户评价:用户认可其速度、推理和编程能力,认为详细提示响应更佳,但因规模小,现实世界知识和事实回忆能力不足。
新闻关联:发布GPT - 3 - mini后不久,OpenAI推出基于GPT - 3的ChatGPT研究代理Deep Research 。此前12月宣布GPT - 3模型系列,虽DeepSeek - R1同期吸引关注,但OpenAI称按原计划发布。
重要意义:巩固OpenAI在语言模型领域领先地位,完善GPT - 1系列推理能力。专注特定任务发挥推理模型优势,推动AI从 “聪明实习生” 向 “可靠专业伙伴” 转变。
总结思考:免费层用户也能使用GPT - 3 - mini,更多用户熟悉提示方式,模型价值越大。