ChatGPT最强竞品Claude-2重磅升级!知识更新到23年,代码数学显著提升,免费可用

夕小瑶科技说 分享
来源 | 机器之心

此次,Claude 2 除了一大波能力上的升级,更重要的是大家都可以用了。

今日,那个被很多网友称为「ChatGPT 最强竞品」的人工智能系统 Claude 迎来了版本大更新。

Claude 2 正式发布!

据介绍,Claude 2 在编写代码、分析文本、数学推理等方面的能力得到加强,并且可以产生更长的响应

更重要的是,用户可以在新的 beta 网站上免费试用,并且 Claude 2 商用 API 的价格与 1.3 版本相同。

机器之心在此前的文章中多次介绍过 Claude,它是由 OpenAI 离职人员创建的 Anthropic 公司打造的。在 ChatGPT 发布两个月后,该公司就迅速开发出了 Claude,可以完成摘要总结、搜索、协助创作、问答、编码等任务。

之后持续升级,五月份通过 100K Context Windows 将 Claude 的上下文窗口从 9k token 扩展到了 100k。

现在终于迎来了大版本更新。Anthropic 表示,Claude 2 基于此前从用户那里获得的反馈建议进行改进。

接下来看各方面能力细节。

Claude 2 在哪些方面得到了加强?

总的来说,Claude 2 注重提高以下能力:

  • Anthropic 致力于提高 Claude 作为编码助理的能力,Claude 2 在编码基准和人类反馈评估方面性能显著提升。
  • 长上下文(long-context)模型对于处理长文档、少量 prompt 以及使用复杂指令和规范进行控制特别有用。Claude 的上下文窗口从 9K token 扩展到了 100K token(Claude 2 已经扩展到 200K token,但目前发布版本仅支持 100K token)。
  • 以前的模型经过训练可以编写相当短的回答,但许多用户要求更长的输出。Claude 2 经过训练,可以生成最多 4000 个 token 的连贯文档,相当于大约 3000 个单词。
  • Claude 通常用于将长而复杂的自然语言文档转换为结构化数据格式。Claude 2 经过训练,可以更好地生成 JSON、XML、YAML、代码和 Markdown 格式的正确输出。
  • 虽然 Claude 的训练数据仍然主要是英语,但 Claude 2 的训练数据中非英语数据比例已经明显增加。
  • Claude 2 的训练数据包括 2022 年和 2023 年初更新的数据。这意味着它知道最近发生的事件,但它仍然可能会产生混淆。

该研究进行了一系列评估实验来测试 Claude 2 的性能水平,包括对齐评估和能力评估两部分。

在模型对齐方面,该研究针对大模型的三个关键要求做了具体评估,包括:遵循指令、生成内容有用(helpfulness);生成内容无害(harmlessness);生成内容准确、真实(honesty)。

人类反馈评估

大模型在生成过程中应该遵循人类提供的指令,这将让生成结果符合要求、实际有用。针对这一点,该研究对 Claude 2、Claude 1.3 和 Claude Instant 1.1 进行了实验评估,并使用经典的对弈水平评估指标 ——Elo 分数,几个模型的评估结果如下图 1 所示:

偏见评估

Bias Benchmark for QA(BBQ)是用于评估模型对人群偏见的常用基准。该研究在 BBQ 基准上进行实验评估,几种模型的实验结果如下图 2 所示:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rmvGzYVa-1689172512460)(https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/e58aebd8ca13460a803ec1c6ea03fe8d~tplv-k3u1fbpfcp-zoom-1.image)]

下图 3 显示了在消除歧义的语境下几种模型回答 BBQ 基准中问题的准确性。值得注意的是,Claude 模型的准确率会比 Helpful-Only 模型低是因为模型会拒绝回答一些存在偏见的问题。

事实性评估

大模型有时会生成虚假混乱的信息,因此测试模型生成内容的事实性非常重要。TruthfulQA 是一个用于评估语言模型在对抗性环境中输出的准确性和真实性的基准,几种模型的测试结果如下图 4 所示:

总的来说,Claude 2 在 HHH(在有用性(helpfulness)、无害性(harmlessness)、事实性(honesty)、)评估上的总体表现如下

在能力评估方面,该研究针对多语言翻译任务、上下文窗口、标准基准评估、资格水平考试几个方面对 Claude 2 展开评估实验

多语言翻译

该研究选择涵盖 200 多种语言的翻译基准 Flores 200 来评估 Claude 2 的多语言翻译能力,其中包括低资源语言。Claude 2、Claude 1.3 和 Claude Instant 1.1 的评估结果如下图 7 所示:

上下文窗口

今年早些时候,研究团队将 Claude 的上下文窗口从 9K token 扩展到了 100K token,现在 Claude 2 进一步扩展了上下文窗口, 达到 200K token,相当于约 150000 个单词。

为了证明 Claude 2 会实际使用完整的上下文,该研究测量了每个 token 位置的损失,平均超过 1000 个长文档,如下图 8 所示:

不过,研究团队表示目前发布的版本仅支持 100K token 的上下文窗口,完整的上下文窗口将会集成到他们的产品中

标准基准评估

该研究在几个标准基准上评估测试了 Claude 2、Claude Instant 1.1 和 Claude 1.3,包括用于 python 函数合成的 Codex HumanEval、用于解决小学数学问题的 GSM8k、用于多学科问答的 MMLU、针对长故事问答的 QuALITY、用于科学问题的 ARC-Challenge、用于阅读理解的 TriviaQA 和用于中学水平阅读理解与推理的 RACE-H,具体的评估结果如下表所示:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YpE6FgRg-1689172512462)(https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/9b694a5e819f4c1d90d5c871d3841767~tplv-k3u1fbpfcp-zoom-1.image)]

值得注意的是,Claude 2 生成代码的能力有了明显的提升,在 Codex HumanEval 上的得分从 56% 上升到 71.2%。

资格水平考试

该研究还用几个常见资格水平考试的题目测试了 Claude 2 的实际能力。

首先,Claude 2 在美国律师资格考试(Bar Exam)的多项选择题测试中得分率为 76.5%,高于 Claude 1.3 的 73.0%。

其次,研究团队还用美国研究生入学考试(GRE)测试了 Claude 2 的能力水平,Claude 2 在 GRE 阅读和写作考试中的得分高于 90%,在定量推理方面与达到了参加 GRE 考试的考生的中位数水平。

Anthropic 表示,人工智能写作平台 Jasper 和代码导航工具 Sourcegraph 等公司已开始将 Claude 2 纳入其运营中。

官方示例及试用体验

我们先看 Anthropic 提供的一些官方示例。

1、编码能力:为静态地图添加交互式数据

2、文本处理能力:总结文档、输出表格。这里 Claude 2 用上了 100K token 文本处理功能,可以在 prompt 窗口上传几百页的文档。

除了以上,机器之心也尝试了一些文本分析、数学推理和编写代码方面的示例。

首先让Claude 2 以目录形式总结一下「Claude 2 技术文档」 的要点,总结得非常详细,对我们写这篇文章有帮助。

再来两道数学推理题,Claude 2 只用一次就能搞定

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FDzxKSCo-1689172512463)(https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/2fa80874c4fe443598ce80d62640bcf7~tplv-k3u1fbpfcp-zoom-1.image)]

最后测一些代码题,生成、检查和补全代码都不在话下

不过,Claude 2 仍不具备生成图片的多模态能力

参考资料

[1]https://www.anthropic.com/index/claude-2
[2]https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf
[3]https://arstechnica.com/information-technology/2023/07/new-chatgpt-rival-claude-2-launches-for-open-beta-testing/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/40163.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第09课:《ChatGPT提示工程》—— Introduction(引言)

ChatGPT 上线至今,在实际应用中,不少人还没真正掌握它的使用技巧。ChatGPT 的难点,在于 Prompt(提示词)的编写,OpenAI 创始人在今年 2 月时,在 Twitter 上说:「能够出色编写 Prompt …

视觉合集5~2022

发一个合集 总结一些2022年的 一些论文 视觉 Transformer(ViT)学习什么? 论文链接:https://arxiv.org/pdf/2212.06727.pdf 关于视觉的探索显示,ViT 学习的归纳偏置或特征与卷积神经网络(CNN)学…

2022年最值得关注的十篇论文,你都看了吗?来卷来学习

2023 点击蓝字 关注我们 关注并星标 从此不迷路 计算机视觉研究院 计算机视觉研究院专栏 作者:Edison_G 年关将至,威斯康星大学助理教授 Sebastian Raschka 盘点了 2022 年他最看好的十大论文。 公众号ID|ComputerVisionGzq 学习群&#xff5…

2022年盘点:最值得关注的十篇机器学习论文

来源:机器之心 计算机视觉与机器学习 本文约4000字,建议阅读8分钟 威斯康星大学助理教授 Sebastian Raschka 盘点了 2022 年他最看好的十大论文。 2022 年 1 月,扩散模型第一次吸引了我的眼球。当时我判断到将会有某些大事发生,然…

pycharm 黄色(黄字)高亮警告 Default argument value is mutable 原因及解决办法(mutable 可变对象与 immutable不可变对象)

示例 解决方案 按照参考文章的意思,classesread_class_names(cfg.YOLO.CLASSES)在函数调用时就会创建对象并赋初始值,如果在函数中修改了classes的值,则函数在下一次调用时,就会不会重新初始化值,而以上一…

平面设计之条幅篇

我的博客,我的原创,希望大家能够喜欢 我不是一个真正的美工,但我在社团组织干的是美工的任务; 我不是一个真正的UI,但我在实验室干的是UI的任务; 我不是一个真正的视频制作者,但我在工作室干的是…

做word计算机海报图片,怎么用word制作海报 海报制作方法

一般情况下我们制作海报肯定是使用专业的工具来做了,像photoshop或CoreldRAW来做,但对于我们来讲有时并不需要这么专业的工具来做,我们可以使用word简单制作出漂亮的海报哦。 1.我们先打开要制作海报的word文档之后我们再点击“页面设置”——…

初识pygame

一.pygame介绍 Pygame是被设计用来写游戏的python模块集合,Pygame免费,开源,使用python可以导入pygame模块,Pygame是极度轻便的并且可以运行在众多平台和操作系统上。Pygame包已经被下载过成千上万次,并且也被访问过成千上万次了。 二.pygame安装方法 1.win +R 键出现运…

Could not install packages due to an EnvironmentError: [WinError 5] pip 更新版本解 ———安装pygame遇到的问题

总结过程: 输入pip install pygame发现红字提示使用--user选项 pip install pygame --user 更新pip版本的话把单引号(内容可能不一样)里的复制下来就好了,如果提示使用--user选项再加就好了 python -m pip install --upgrade …

深入浅出Spring Boot(一) ——创建一个Spring Boot项目

使用Idea创建一个Spring Boot项目 首先点击File->New->Project 然后选择左侧的Spring Initializr,右侧选择自己的jdk版本,点击Next进入下一步 输入Group和Artifact,以及其它信息,点击Next进入下一步 选择Web->Spring …

降本增效工具系列(一):移动端调试利器 vConsole

文章目录 一、前言二、vConsole 简介三、使用方法3.1 引用 JS 文件方式3.2 npm 依赖包方式3.3 第三方插件 四、注意事项五、vConsole 遮挡问题解决六、拓展阅读 一、前言 痛点:移动 web开发时,在手机上,如果是要看控制台信息,都需…

关于Python及库安装的一些问题

三个小问题 Python安装注意事项pip按指示更新后失效管理员身份运行 Python安装注意事项 1)建议在python官网https://www.python.org/下载最新版本(官网默认是下载32-bit,64-bit的下载须自行在Downloads版块选择)根据你的操作系统来,64位的就…

发布坐标转换软件OpenCoord的使用第二集-椭球转换

博主自制软件OpenCoord的使用的第二集,主要内容是椭球转换,布尔沙的三参数、七参数法。 OpenCoord的下载地址为:http://www.xiaokcehui.com/?post93,点击第一行的黄字下载 椭球三参数和七参数坐标转换只适用于椭球小角度转换&am…

Python学习笔记(三)——安装第三方模块

再来回顾一下本次学习的终极目标:根据导入的txt文本生成词云。所以我简单浏览了一下相关的语法,直接开始根据需求 (写) 抄代码 一、git clone 词云项目 打开github搜索关键词 python 词云,克隆了一个项目 作者说需要安…

c语言将26个字母显示在屏幕上,汇编语言在屏幕上输出A-Z26个字母,要求红底,黄字,闪烁...

满意答案 lbdtez5718 2015.11.27 采纳率:52% 等级:12 已帮助:23749人 1234567891011121314151617181920212223242526272829303132333435363738394041在windows的dos窗口中,闪烁未实现 !stack segment stack …

处理七日杀开服EOS错误黄字错误红字错误,开服出现房间无法被搜索的问题

如题,本问题建立在你的服务器已经正常启动的情况下。 如果你的服务器根本做不到正常启动,那么这个方案可能并不适合你。 这里只提供windows端的配套过程,如果你的os是linux,那么需要自行bing一下证书导入方法。 本文默认你的serve…

chatgpt赋能python:Python编程实现九九乘法表教程

Python编程实现九九乘法表教程 作为一种高效、易于入门的编程语言,Python在教育领域和工业界都受到了广泛的应用。本篇文章将向大家介绍如何使用Python编写九九乘法表,帮助读者更加深入地学习Python编程语言。 什么是九九乘法表? 九九乘法…

吴恩达|chatgpt 提示词工程师学习笔记。

目录 一、提示指南 写提示词的2大原则: 模型的限制 二、迭代 三、总结 四、推断 五、转换 六、扩展 七、对话机器人 吴恩达和openai团队共同开发了一款免费的课程,课程是教大家如何更有效地使用prompt来调用chatgpt,整个课程时长1个…

摩尔线程宣布完成15亿B轮融资 中移数字新经济产业基金领投

雷递网 乐天 12月27日 摩尔线程今日宣布完成15亿元B轮融资,并已完成交割。本轮融资由中移数字新经济产业基金、和谐健康保险领投,典实资本跟投。 摩尔线程称,融资资金将持续用于摩尔线程多功能GPU的快速迭代,MUSA架构创新及相关IP…