如今,大模型领域更卷了!
前脚 OpenAI 发布 GPT4o,硬控全场,后脚就被最大的竞争对手 Anthropic 超越了。
刚刚,Anthropic 发布了全新大模型 Claude 3.5 Sonnet,号称是迄今为止最智能的模型。
据介绍,Claude 3.5 Sonnet 是 Anthropic 即将推出的 Claude 3.5 系列的首个版本。该模型提高了整个领域的智能水平,在绝大多数基准评估中都超越了竞品大模型和自家前代最强 Claude 3 Opus。与此同时,运行速度、成本与自家前代 Claude 3 Sonnet 相当。
地址:claude.ai/
目前,Claude 3.5 Sonnet 已经在 Claude.ai 和 Claude iOS 应用程序上免费提供,而 Claude Pro 和 Team 计划订户能够以更高的速率访问它。
此外,Claude 3.5 Sonnet 已经可以直接通过 Anthropic API、亚马逊云科技 Bedrock 等渠道使用。每百万个输入 token 的价格为 3 美元,每百万个输出 token 的价格为 15 美元,上下文窗口为 200k token。
Claude、GPT、Gemini三个模型迭代发布时间线。
Anthropic 称其目标是每隔几个月大幅度改进性能、速度和成本之间的权衡曲线。今年晚些时候将发布 Claude 3.5 Haiku 和 Claude 3.5 Opus。
除了开发下一代大模型之外,Anthropic 正在开发新的模式和功能,以支持更多企业用例,包括与企业应用程序的集成。团队还在探索诸如 Memory 之类的功能,使得模型能够记住用户的偏好和指定的交互历史,从而实现更加个性化和高效的体验。
比 GPT-4o 更智能
比 Claude 3 Opus 快两倍
Claude 3.5 Sonnet 为研究生水平推理 (GPQA)、本科生水平知识 (MMLU) 和编码能力 (HumanEval) 设定了新的行业基准。它在理解细微差别、幽默和复杂指令方面表现出显著的进步,并且擅长以自然、亲切的语气撰写高质量的内容。
,时长01:32
Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍。这种性能的提升加上实惠的价格,使 Claude 3.5 Sonnet 成为复杂任务的理想选择。
在内部代理编码评估中,Claude 3.5 Sonnet 解决了 64% 的问题,优于 Claude 3 Opus(解决了 38%)。Anthropic 评估测试了 Claude 3.5 Sonnet 根据自然语言描述的需求,修复错误或增加功能到开源代码库中的能力。
在获得指导和相关工具后,Claude 3.5 Sonnet 可以独立编写、编辑和执行代码,并具有复杂的推理和故障排除功能。Claude 3.5 Sonnet 可以轻松处理代码转换,这对于更新旧版应用程序和迁移代码库特别有效。
下表为 Claude 3.5 Sonnet 与其他模型的比较,评估基准包括推理、阅读理解、数学、科学和编码。在所有这些基准测试中,Claude 3.5 Sonnet 的表现均优于之前的前沿模型 Claude 3 Opus。
我们也可以看到表中 Claude3.5 与 GPT-4o 的对比数据,除了数学方面,得分都比 GPT-4o 高或者逼近。
迄今为止最强视觉模型
Anthropic 表示,Claude 3.5 Sonnet 是其最强的视觉模型,在所有标准视觉基准测试中都超越了前代 Claude 3 Opus。
尤其是在需要视觉推理的任务中表现更为明显,例如解释图表、图形或者从不完美的图像中转录文本,这是零售、物流和金融服务行业的核心功能。在这些领域,人工智能可以从图像、图形或插图中收集到比单独文本中更多的见解。
下图为 Claude 3.5 Sonnet 与 Claude 3 Opus、GPT-4o、Gemini 1.5 Pro 在视觉数学推理、科学图表、视觉问答、图表 QA、文件视觉 QA 任务中的性能比较。
Artifacts—— 使用 Claude 的新方式
Anthropic 还在 Claude.ai 上推出了 Artifacts,这是一项扩展用户与 Claude 交互方式的新功能。当用户要求 Claude 生成代码片段、文本文档或网站设计等内容时,这些工件会出现在他们的对话旁边的专用窗口中。这创建了一个动态工作空间,他们可以在其中实时查看、编辑和构建 Claude 的创作,将人工智能生成的内容无缝集成到他们的项目和工作流程中。
Artifacts 预览功能标志着 Claude 从对话式 AI 向协作工作环境的演变,并将很快扩展到支持团队协作。在不久的将来,团队将能够安全地将他们的知识、文档和正在进行的工作集中在一个共享空间中,而 Claude 则按需充当队友。
最后,Anthropic 表示他们对模型进行了严格的测试,并致力于减少其被滥用的可能性。
Anthropic 安全团队对 Claude 3.5 Sonnet 在化学、生物、放射性和核(CBRN)风险、网络安全和自主能力领域进行了一系列的评估,最后将 Claude 3.5 Sonnet 分类为 AI 安全等级 2(ASL-2)模型,表明它不会构成灾难性伤害的风险。
此外,作为对安全和透明度承诺的一部分,Anthropic 还与外部专家合作测试和完善这一最新模型中的安全机制。
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
资源分享
大模型AGI学习包
资料目录
- 成长路线图&学习规划
- 配套视频教程
- 实战LLM
- 人工智能比赛资料
- AI人工智能必读书单
- 面试题合集
《人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取!
1.成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。
2.视频教程
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,其中一共有21个章节,每个章节都是当前板块的精华浓缩。
3.LLM
大家最喜欢也是最关心的LLM(大语言模型)
《人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取!