Claude 3.5 Sonnent(new)发布,编程能力反超o1

在这里插入图片描述

目录

      • 1、近期OpenAI的重磅更新
      • 2、Claude 3.5深夜迎来重磅升级
      • 3、为什么这么大的更新却连模型版本号都不改一下?
      • 4、升级后的Claude 3.5 Sonnet:不只是“更快更强”
      • 5、Claude 3.5 Sonnet(new)适配更多场景
        • (1)智能知识问答
        • (2)自动生成代码
        • (3)智能对话系统
        • (4)视觉信息提取
        • (5)模拟人类操作电脑
        • (6)流程自动化
      • [如何直接使用ChatGPT4o、o1、OpenAI Canvas](https://www.nezhasoft.cn/)
        • 编程功能的提升

AI领域的竞争日趋激烈,各大公司都在不断推陈出新,以保持领先地位。

1、近期OpenAI的重磅更新

9月12日,OpenAI更新了o1-preview和o1-mini模型,主打推理能力,号称能解决比以往模型更难的科学、编程和数学问题!

o1-preview:预览版模型,功能相对较少,但推理能力强大。

o1-mini:更小、更快的推理模型,特别擅长编程。

o1 模型可以“像人类一样思考”:o1 模型经过训练,能够花更多时间思考问题,尝试不同的策略,并识别自己的错误,就像人类一样!

10月3日,OpenAI Canvas正式发布,官方的定义是:Canvas 是一个全新的界面,旨在帮助用户与 ChatGPT 在写作和编码方面进行更紧密的协作。

类似 Claude 的 Artifacts,左侧进行提问,右侧进行代码或样式的预览。

并且,Canvas在此基础上,新增了文本和代码的在线编辑功能。

OpenAI至此,补齐了之前的“短板”,完成了对Claude3.5的360°无死角超越。

2、Claude 3.5深夜迎来重磅升级

不出所料,Anthropic AI这周终于有了大动作——首发Claude 3.5 Haiku,全新升级版Claude 3.5 Sonnet也来了,这两款模型在多个领域都有显著提升,特别是在编程领域取得了突破性进展。

Claude 3.5 Sonnet还引入了“计算机使用能力”,能够模拟人类操作计算机,这在自动化重复性工作、软件开发和测试等领域具有巨大潜力。

让人惊艳的是,进化后的Claude 3.5 Sonnet一举击溃OpenAI o1,堪称最强推理模型。

AI巨头间的无烟战争,也是愈演愈烈,这对广大用户来说,绝对是一个好事,AI辅助编程、辅助写作真的太爽了。

从Anthropic官方亮出的评分中不难看出,升级后的Claude 3.5 Sonnet在性能上可以说是有了大幅的提升。

Claude 3.5 Sonnet(new) 全面提升,尤其在编程方面,吊打所有公开模型,包括 OpenAI o1 和专门为 agent 编程设计的系统!SWE-bench Verified 基准测试得分从 33.4% 提升到 49.0%,速度和价格保持不变! 这才是真正的加量不加价!

对开发者来说,这意味着什么?简单来说,代码编写的时间可以大大缩短,调试过程也会更顺畅。而对于那些刚刚接触编程的新人来说,这样的AI助手无疑会成为学习编程的好帮手,因为它不仅能教你怎么写代码,还能告诉你为什么这么写更好。

3、为什么这么大的更新却连模型版本号都不改一下?

该功能发布后,网友纷纷点赞,都表示迫不及待想要尝试这个功能;当然也有网友对 Claude 3.5 Sonnet 依然使用原来的名称表达了深深地不解:「为什么这么大的更新却连模型版本号都不改一下?」

并且发布不过几个小时,就已经有开发者尝试了 Claude 3.5 Sonnet 的这项新能力。网友 Mckay Wrigley 表示通过 API 使用这项新功能,设置时间不超过 10 分钟,而这项能力却能为 AI 开启无限可能,堪称 game changer。

4、升级后的Claude 3.5 Sonnet:不只是“更快更强”

另外,对于官方博客中缺少的与 OpenAI ο1 模型的性能对比,也已经有研究者抢先完成了。根据研究者 Austin Starks 的实验,最新版 Claude 3.5 Sonnet 的性能表现优于 OpenAI ο1-mini。他自己也对这一结果深表震惊。

在各项行业基准测试中,升级版Claude 3.5 Sonnet性能得到了全方位提升,在问答、推理、数学、编程、阅读几个关键评测中,提升效果显著。

Claude 3.5 Sonnet的性能再次反超o1,成为业界新标杆。

  1. GPQA:研究生水平的问答测试
  2. MMLU:通用推理能力测试
  3. MATH [21]:数学问题解决能力测试
  4. HumanEval:编程任务评估
  5. GSM (32):多步骤数学问题测试
  6. DROP [23]: 阅读理解测试
  7. BIG-Bench Hard [24, 25]:模型评估的综合性测试集
  8. AME 2024:高中数学竞赛水平的测试
  9. IFEval:指令遵循能力测试

5、Claude 3.5 Sonnet(new)适配更多场景

Claude 3.5 Sonnet能够理解细微的指令和上下文,识别并纠正自身错误,还能从复杂数据中生成深入的分析和洞察。结合最先进的编码、视觉识别和写作能力,Claude 3.5 Sonnet可以被应用于各种场景。

(1)智能知识问答

Claude 3.5 Sonnet具有大规模上下文处理能力和极低的幻觉率,使其成为处理大型知识库、文档和代码库问答任务的理想选择。

(2)自动生成代码

Claude 3.5 Sonnet可以协助整个软件开发生命周期——从初始设计到错误修复,从系统维护到性能优化。可以直接将它被集成到产品中,或通过Claude.ai平台将其用作智能编码助手。

(3)智能对话系统

凭借增强的推理能力和亲和、自然的语气,Claude 3.5 Sonnet非常适合开发需要跨系统连接数据并执行操作的智能对话系统。

(4)视觉信息提取

Claude 3.5 Sonnet能够轻松从图表、图形和复杂示意图等视觉材料中提取信息——这使其成为数据分析和数据科学任务的理想人工智能模型。

(5)模拟人类操作电脑

通过API集成Claude,开发者可以指导Claude像人类一样使用电脑——通过观察屏幕、移动鼠标、点击按钮和键入文字。

(6)流程自动化

Claude 3.5 Sonnet能够实现重复性任务或流程的自动化。它具备业界领先的指令执行能力,能够处理复杂的流程和操作。

如何直接使用ChatGPT4o、o1、OpenAI Canvas

  1. GPT-4o知识问答:已同步最新ChatGPT o1、OpenAI Canvas
  2. 最强代码大模型Code Copilot:代码自动补全、代码优化建议、代码重构等
  3. DALL-E AI绘画:AI绘画 + 剪辑 = 自媒体新时代
  4. 私信哪吒,备注ai,直接使用GPT-4o

无论是写作、编程,还是两者结合的任务,Canvas 都让我们与 AI 的合作更加高效、灵活。随着功能的进一步完善,这个工具将成为每一个创作者和开发者的必备助手。

编程功能的提升

Canvas在编程任务方面也引入了五个高效的快捷功能:

  1. 代码审查:系统自动提供代码改进的建议,以优化代码质量和性能。
  2. 添加日志语句:在代码中插入调试信息(如print语句),便于追踪代码执行过程。
  3. 生成注释:自动生成代码注释,帮助开发者和团队更好地理解代码。
  4. 修复错误:检测代码中的错误并重写有问题的部分,从而有效修复bug。
  5. 编程语言转换:支持多种语言(包括JS、TS、Python、Java、C++、PHP等)之间的代码转换,帮助开发者轻松跨语言开发。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/454785.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[实时计算flink]作业开发上线流程及规范

随着数据量的爆炸性增长和业务需求的日益复杂化,企业对实时数据处理能力的需求愈发迫切。Flink作为一种强大的流处理框架已经成为实时计算标准,其规范化的开发和运维流程对于企业提升数据处理效率、确保系统稳定性至关重要,旨在提升研发效率&…

力扣困难题汇总(16道)

题4(困难): 思路: 找两数组中位数,这个看起来简单,顺手反应就是数第(mn)/2个,这个难在要求时间复杂度为log(mn),所以不能这样搞,我的思路是:每次切割长度为较…

pdf怎么合并在一起?pdf合并的简单方法

pdf怎么合并在一起?在现代办公和学习环境中,PDF(便携式文档格式)文件因其兼容性强、易于分享和保持格式稳定而广泛应用。然而,在日常工作中,我们经常会遇到需要处理多个PDF文件的情况,例如&…

【uniapp】实现触底加载数据

前言:实现界面触底数据加载。后端接口得支持翻页传参(本案例使用django) 1、后端接口 1.1 封装翻页公共方法standardPagination.py # -*- coding: utf-8 -*- # Time : 2024/10/15 13:15 # Author : super # File : standardPaginat…

[Hbase]一 HBase基础

1. HBase简介 1.1 HBase定义 HBase数据模型的关键在于 稀疏、分布式、多维、排序 的映射。其中映射 map指代非关系型数据库的 key-Value结构。 1.2 HBase数据模型 1)Name Space 命名空间,类似于关系型数据库的database 概念,每个命名空间下有多个表。HBase 两个自…

MFC工控项目实例二十五多媒体定时计时器

承接专栏《MFC工控项目实例二十四模拟量校正值输入》 用多媒体定时器实现0.1秒计时器 1、在SEAL_PRESSUREDlg.h文件中添加代码 #include<MMSystem.h> #pragma comment(lib,"winmm.lib")class CSEAL_PRESSUREDlg : public CDialog { public:CSEAL_PRESSUREDlg(…

Redis实现全局ID生成器

全局ID生成器 为什么要用全局ID生成器 1.当我们使用数据库自增来实现id的生成时,规律过于明显,会给用户暴露很多信息 2.当我们订单量过大时无法用数据库的一张表来存放订单,如果两张表的id都是自增的话,id就会出现重复 什么是全局ID生成器 全局ID生成器,是一种在分布式系统…

css刮刮卡效果(附源码!!!)

这个刮刮卡PC端和移动端都可以用使用 首发的公众号[小白讲前端]欢迎大家关注浏览 PC端展现 移动端展示 源码(PC和移动端直接复制运行) <!DOCTYPE html> <html><head><meta charset"utf-8"><meta name"viewport" content&quo…

宣恩文旅微短剧双作开机,融合创新助力城市经济发展

近日&#xff0c;宣恩文旅微短剧《弥彰》与《新年恋爱申请&#xff0c;请通过》正式开机。这两部作品由常斌、徐子琁、常喆宽、李果、况琪儿、梅凯杰、刘书赫等实力派演员领衔主演&#xff0c;不仅汇聚了众多演艺界的佼佼者&#xff0c;更承载着宣恩县文化旅游事业的创新与发展…

【从零开始的LeetCode-算法】3075. 幸福值最大化的选择方案

给你一个长度为 n 的数组 happiness &#xff0c;以及一个 正整数 k 。 n 个孩子站成一队&#xff0c;其中第 i 个孩子的 幸福值 是 happiness[i] 。你计划组织 k 轮筛选从这 n 个孩子中选出 k 个孩子。 在每一轮选择一个孩子时&#xff0c;所有 尚未 被选中的孩子的 幸福值 …

【ELK】初始阶段

一、logstash学习 安装的时候最好不要有中文的安装路径 使用相对路径 在 Windows PowerShell 中&#xff0c;如果 logstash 可执行文件位于当前目录下&#xff0c;你需要使用相对路径来运行它。尝试输入以下命令&#xff1a; .\logstash -e ‘input { stdin { } } output { s…

Ubuntu22.04 制作系统ISO镜像

第一步&#xff1a;安装软件-Systemback 1.如果已经添加过ppa&#xff0c;可以删除重新添加或者跳过此步 sudo add-apt-repository --remove ppa:nemh/systemback 2.添加ppa 我是ubuntu20&#xff0c;但这个软件最后支持的是 ubuntu16.04版本&#xff0c;所以加一个16版本…

通过Python爬虫获取商品销量数据,轻松掌握市场动态

为什么选择Python爬虫&#xff1f; 简洁易用&#xff1a;Python语言具有简洁的语法和丰富的库&#xff0c;使得编写爬虫变得简单高效。强大的库支持&#xff1a;Python拥有强大的爬虫框架&#xff08;如Scrapy、BeautifulSoup、Requests等&#xff09;&#xff0c;可以快速实现…

算法1—八大常用排序算法(上)

1.直接插入排序 原理&#xff1a;从arr[0]开始&#xff0c;每次和后一个数据比大小&#xff0c;然后根据需要的是升序还是降序进行操作。 最差的情况下时间复杂度&#xff1a;O&#xff08;n&#xff09; 最好的情况下时间复杂度&#xff1a;O&#xff08;1&#xff09; 所…

漏洞挖掘 | 通过域混淆绕过实现账户接管

由于这是一个私有项目&#xff0c;我将使用 example.com 来代替。 很长一段时间以来&#xff0c;我一直想在漏洞赏金项目中找到一个账户接管&#xff08;ATO&#xff09;漏洞。于是&#xff0c;我开始探索项目范围内的 account.example.com。 我做的第一件事就是注册一个新账…

WebRTC音频 03 - 实时通信框架

WebRTC音频01 - 设备管理 WebRTC音频 02 - Windows平台设备管理 WebRTC音频 03 - 实时通信框架(本文) WebRTC音频 04 - 关键类 WebRTC音频 05 - 音频采集编码 一、前言&#xff1a; 前面介绍了音频设备管理&#xff0c;并且以windows平台为例子&#xff0c;介绍了ADM相关的类…

探索 Web Audio API 的奇妙世界

Web Audio API 是一项强大而灵活的 JavaScript API&#xff0c;它允许开发者在网页中处理和生成音频。本文将带您深入了解 Web Audio API 的基本概念&#xff0c;并介绍一些令人兴奋的应用场景。 1. 什么是 Web Audio API&#xff1f; Web Audio API 是一组用于处理和生成音频…

react18中在列表项中如何使用useRef来获取每项的dom对象

在react中获取dom节点都知道用ref&#xff0c;但是在一个列表循环中&#xff0c;这样做是行不通的&#xff0c;需要做进一步的数据处理。 实现效果 需求&#xff1a;点击每张图片&#xff0c;当前图片出现在可视区域。 代码实现 .box{border: 1px solid #000;list-style: …

计算机专业大学四年的学习路线(非常详细),零基础入门到精通,看这一篇就够了

前言 许多学子选择踏上计算机这条充满挑战与机遇的道路。但在大学四年中&#xff0c;如何规划自己的学习路线&#xff0c;才能在毕业时脱颖而出&#xff0c;成为行业的佼佼者呢&#xff1f; 第一学年&#xff1a;基础知识的奠基 1.1 课程安排 在大学的第一年&#xff0c;重…

elementUI进度条el-progress不显示白色

效果图 通过设置百分比为100,动态修改进度条的宽度完成 <template><div class"myProgressBox"><div class"index">{{ index }}</div><div class"typeTitle">{{ typeTitle }}</div><div class"twoP…