免费可用!ChatGPT最强竞品来了

802d2549327d7ad5bdcc79bc4fe76198.png

(永久免费,扫码加入)

来源:机器之心

此次,Claude 2 除了一大波能力上的升级,更重要的是大家都可以用了。

今日,那个被很多网友称为「ChatGPT 最强竞品」的人工智能系统 Claude 迎来了版本大更新。

Claude 2 正式发布!

据介绍,Claude 2 在编写代码、分析文本、数学推理等方面的能力得到加强,并且可以产生更长的响应

更重要的是,用户可以在新的 beta 网站上免费试用,并且 Claude 2 商用 API 的价格与 1.3 版本相同。

f1a4aaa4704bb7db015dc6becf2509ee.png

机器之心在此前的文章中多次介绍过 Claude,它是由 OpenAI 离职人员创建的 Anthropic 公司打造的。在 ChatGPT 发布两个月后,该公司就迅速开发出了 Claude,可以完成摘要总结、搜索、协助创作、问答、编码等任务。

之后持续升级,五月份通过 100K Context Windows 将 Claude 的上下文窗口从 9k token 扩展到了 100k。

现在终于迎来了大版本更新。Anthropic 表示,Claude 2 基于此前从用户那里获得的反馈建议进行改进。

接下来看各方面能力细节。

Claude 2 在哪些方面得到了加强?

总的来说,Claude 2 注重提高以下能力:

  • Anthropic 致力于提高 Claude 作为编码助理的能力,Claude 2 在编码基准和人类反馈评估方面性能显著提升。

  • 长上下文(long-context)模型对于处理长文档、少量 prompt 以及使用复杂指令和规范进行控制特别有用。Claude 的上下文窗口从 9K token 扩展到了 100K token(Claude 2 已经扩展到 200K token,但目前发布版本仅支持 100K token)。

  • 以前的模型经过训练可以编写相当短的回答,但许多用户要求更长的输出。Claude 2 经过训练,可以生成最多 4000 个 token 的连贯文档,相当于大约 3000 个单词。

  • Claude 通常用于将长而复杂的自然语言文档转换为结构化数据格式。Claude 2 经过训练,可以更好地生成 JSON、XML、YAML、代码和 Markdown 格式的正确输出。

  • 虽然 Claude 的训练数据仍然主要是英语,但 Claude 2 的训练数据中非英语数据比例已经明显增加。

  • Claude 2 的训练数据包括 2022 年和 2023 年初更新的数据。这意味着它知道最近发生的事件,但它仍然可能会产生混淆。

该研究进行了一系列评估实验来测试 Claude 2 的性能水平,包括对齐评估和能力评估两部分。

在模型对齐方面,该研究针对大模型的三个关键要求做了具体评估,包括:遵循指令、生成内容有用(helpfulness);生成内容无害(harmlessness);生成内容准确、真实(honesty)。

人类反馈评估

大模型在生成过程中应该遵循人类提供的指令,这将让生成结果符合要求、实际有用。针对这一点,该研究对 Claude 2、Claude 1.3 和 Claude Instant 1.1 进行了实验评估,并使用经典的对弈水平评估指标 ——Elo 分数,几个模型的评估结果如下图 1 所示:

417c8fb5b296768a7259553a80ba541b.png

偏见评估

Bias Benchmark for QA(BBQ)是用于评估模型对人群偏见的常用基准。该研究在 BBQ 基准上进行实验评估,几种模型的实验结果如下图 2 所示:

fc46e3f76900d045a8d8bfb92ebd479f.png

下图 3 显示了在消除歧义的语境下几种模型回答 BBQ 基准中问题的准确性。值得注意的是,Claude 模型的准确率会比 Helpful-Only 模型低是因为模型会拒绝回答一些存在偏见的问题。

730290d498f269d93f2c6a48be46dec1.png

事实性评估

大模型有时会生成虚假混乱的信息,因此测试模型生成内容的事实性非常重要。TruthfulQA 是一个用于评估语言模型在对抗性环境中输出的准确性和真实性的基准,几种模型的测试结果如下图 4 所示:

e42ec3bf6e57a147608a0cd5640f9d82.png

总的来说,Claude 2 在 HHH(在有用性(helpfulness)、无害性(harmlessness)、事实性(honesty)、)评估上的总体表现如下图 6 所示:

c1a24a19d1134877e83153ff587ef824.png

在能力评估方面,该研究针对多语言翻译任务、上下文窗口、标准基准评估、资格水平考试几个方面对 Claude 2 展开评估实验

多语言翻译

该研究选择涵盖 200 多种语言的翻译基准 Flores 200 来评估 Claude 2 的多语言翻译能力,其中包括低资源语言。Claude 2、Claude 1.3 和 Claude Instant 1.1 的评估结果如下图 7 所示:

efc859226256c1ceaac718162a37b204.png

上下文窗口

今年早些时候,研究团队将 Claude 的上下文窗口从 9K token 扩展到了 100K token,现在 Claude 2 进一步扩展了上下文窗口, 达到 200K token,相当于约 150000 个单词。

为了证明 Claude 2 会实际使用完整的上下文,该研究测量了每个 token 位置的损失,平均超过 1000 个长文档,如下图 8 所示:

9a3a28afa157a82922d12ba435e81cab.png

不过,研究团队表示目前发布的版本仅支持 100K token 的上下文窗口,完整的上下文窗口将会集成到他们的产品中

标准基准评估

该研究在几个标准基准上评估测试了 Claude 2、Claude Instant 1.1 和 Claude 1.3,包括用于 python 函数合成的 Codex HumanEval、用于解决小学数学问题的 GSM8k、用于多学科问答的 MMLU、针对长故事问答的 QuALITY、用于科学问题的 ARC-Challenge、用于阅读理解的 TriviaQA 和用于中学水平阅读理解与推理的 RACE-H,具体的评估结果如下表所示:

a0f1bfeba69d5ab6a9575fcd0342397e.png

值得注意的是,Claude 2 生成代码的能力有了明显的提升,在 Codex HumanEval 上的得分从 56% 上升到 71.2%。

资格水平考试

该研究还用几个常见资格水平考试的题目测试了 Claude 2 的实际能力。

首先,Claude 2 在美国律师资格考试(Bar Exam)的多项选择题测试中得分率为 76.5%,高于 Claude 1.3 的 73.0%。

b8f865b85a048346cc9a433971097292.png

其次,研究团队还用美国研究生入学考试(GRE)测试了 Claude 2 的能力水平,Claude 2 在 GRE 阅读和写作考试中的得分高于 90%,在定量推理方面与达到了参加 GRE 考试的考生的中位数水平。

b46c1c65e622ef7188264ff4670e1fc7.png

最后,该研究还在美国医师执照考试(USMLE)题目上测试了 Claude 2:

4f4d67bc37557e04bf888c50c65cbfbc.png

Anthropic 表示,人工智能写作平台 Jasper 和代码导航工具 Sourcegraph 等公司已开始将 Claude 2 纳入其运营中。

官方示例及试用体验

我们先看 Anthropic 提供的一些官方示例。

1、编码能力:为静态地图添加交互式数据

2、文本处理能力:总结文档、输出表格。这里 Claude 2 用上了 100K token 文本处理功能,可以在 prompt 窗口上传几百页的文档。

除了以上,机器之心也尝试了一些文本分析、数学推理和编写代码方面的示例。

2d6dfcb8a0afabd001db66c95f2b67f3.png

试用地址:http://claude.ai

首先让 Claude 2 以目录形式总结一下「Claude 2 技术文档」的要点,总结得非常详细,对我们写这篇文章有帮助。

9202377027ad22fd0535558d5c0188fb.png

再来两道数学推理题,Claude 2 只用一次就能搞定

d33bc97729dbbd85af42b3326ada20ca.png

3d8fd1c0898e2eb5aea6dfe9a5c2243d.png

最后测一些代码题,生成、检查和补全代码都不在话下

66b60f469124769886d17cca0b12bbc7.png

c62274736697474b06f13ccb073760eb.png

e88c5a585525d3eb08f43f86cb0074f5.png

不过,Claude 2 仍不具备生成图片的多模态能力

cfd76f6c6514a1f177a70e2919b75514.png

最后推荐一下我们的会员群,目前有风投天使投资人,猎头HR,抖音大V,情感博主,律师,心理咨询师,医疗销售,地产,保险,钢琴老师,运营商,企业咨询,跨境电商,建筑,互联网行业的数据分析师,后端开发,python测试等行业的同学加入。

微信咨询:coder_v5 (务必备注你的来意)

性价比超高的星球

目前星球430+人,专栏的内容秘籍已经更新了41篇,每天都有星球发布自己心得。只花一份钱可以学:

Python : python 入门课程44节+Django专栏9节+趣味实战案例

chatgpt :入门,进阶,趣味办公,高级课程

AI绘画:Mj的基础,入门,进阶,小红书玩法

如果你想学Python,又想学ChatGPT,又想学AI绘画,只想花一份钱欢迎加入我们星球会员群,还能认识很多牛人!

加入就送ChatGPT独立账号

d13e0ccbc869057bc7dba68bdf8c9b37.jpeg

另外还送ChatGPT高级视频课程

原价99,现在免费送星球会员

18446c25fdbd29a61894182fb867b198.jpeg

微信长按试看内容

三天内不满意可直接退款!!!

2cf46d9e047326a39dc4f7bd8dbca1aa.png

推荐阅读:
入门: 最全的零基础学Python的问题  | 零基础学了8个月的Python  | 实战项目 |学Python就是这条捷径
干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析 |   从万众期待到口碑扑街!唐探3令人失望  | 笑看新倚天屠龙记 | 灯谜答题王 |用Python做个海量小姐姐素描图 |碟中谍这么火,我用机器学习做个迷你推荐系统电影
趣味:弹球游戏  | 九宫格  | 漂亮的花 | 两百行Python《天天酷跑》游戏!
AI: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影
小工具: Pdf转Word,轻松搞定表格和水印! | 一键把html网页保存为pdf!|  再见PDF提取收费! | 用90行代码打造最强PDF转换器,word、PPT、excel、markdown、html一键转换 | 制作一款钉钉低价机票提示器! |60行代码做了一个语音壁纸切换器天天看小姐姐!|

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16711.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt-AIGC-从数学开始

向量 向量是由n个实数组成的一个n行1列(n*1)或一个1行n列(1*n)的有序数组; 点积 - 向量的点乘,也叫向量的内积、数量积,对两个向量执行点乘运算,就是对这两个向量对应位一一相乘之后求和的操作…

ChatGPT不仅能写代码还能改bug,这届AI全能

工欲善其事必先利其器,我们先来看一下什么是ChatGPT。小试牛刀,让ChatGPT自己来回答一下: 从介绍中可以看出来ChatGPT很擅长处理自然语言,那我们来看看AI处理编程语言的效果如何呢? 第一个挑战,让ChatGP…

如何搭建与使用FTP服务器

文档资料:https://download.csdn.net/download/wangshuxuncom/87845843https://download.csdn.net/download/wangshuxuncom/87845843 视频教程:如何搭建与使用FTP服务器_哔哩哔哩_bilibili如何搭建与使用FTP服务器共计5条视频,包括&#xff…

如何使用Harbor私有镜像仓库

文档资料:https://download.csdn.net/download/wangshuxuncom/87835045https://download.csdn.net/download/wangshuxuncom/87835045 视频教程:服务端_哔哩哔哩_bilibili服务端是如何使用Harbor私有镜像仓库的第1集视频,该合集共计5集&#…

Docker插件一键部署SpringBoot项目

视频: Docker插件一键部署SpringBoot项目_哔哩哔哩_bilibiliDocker插件一键部署SpringBoot项目共计4条视频,包括:环境搭建、集成Docker、创建项目等,UP主更多精彩视频,请关注UP账号。https://www.bilibili.com/video/…

如何在Linux中安装GitLab

文档资料:https://download.csdn.net/download/wangshuxuncom/87840407https://download.csdn.net/download/wangshuxuncom/87840407 视频教程:如何在Linux中安装GitLab_哔哩哔哩_bilibili如何在Linux中安装GitLab共计5条视频,包括&#xff…

老高的 IT 漫谈 - 20200501

新形式 作为一个从上个世纪到现在的 IT 行业老年人,这个公众号开通的初衷其实是想写 IT 圈的事情,甚至是吐槽。但是随着那时候开始折腾海外数据的原因,工作越来越忙,微博都没时间上了,哪有时间写不正经的内容&#xff…

老高的 IT 漫谈 - 20200512

前言: 月初写了第一篇漫谈,反馈还好,所以继续努力写吧,也许以后不做 IP 库了,可以转型做 IT 评论养家糊口了。。。 闲言碎语不再讲,下面开始正题。 腾讯视频超前点播案 内容链接:腾讯“超前点播…

当杠精型AI丈夫遇上阴阳怪气AI老婆,你的代码玩得转吗?

玩趣味活动 赢千元奖金 DataFountain社区首个趣味活动来啦!!! 活动已发车,来不及解释了,先上车:https://www.datafountain.cn/information/activity/3 人工智能问答爆火,你的算法技能储备跟上…

AI在网上给自己建了一座“鬼城”

新一轮 AI 革命的浪潮正在席卷全球,人们看到了 AGI 的曙光和智能的涌现。 你可以在 Glow 或者 Character.AI 上与虚拟人对话,或者让 ChatGPT 像模像样地扮演各种人格。 但你是否想过,成千上万的拥有「智能」的 AI 聚集在同一个平台&#xff0…

互联网惊现 AI 鬼城,上万 AI 发帖聊天,人类禁止入内,这一天终于来了

新一轮 AI 革命的浪潮正在席卷全球,人们看到了 AGI 的曙光和智能的涌现。 你可以在 Glow 或者 Character.AI 上与虚拟人对话,或者让 ChatGPT 像模像样地扮演各种人格。 但你是否想过,成千上万的拥有「智能」的 AI 聚集在同一个平台&#xf…

人类被禁言!上万不同人格AI在互联网“鬼城”中尽情聊天互动

导语 近期,名为“Chirper”的网络社区突然爆火,而这个AI社区的规则也非常简单,只允许AI聊天、互动,人类被禁止参与聊天,只能旁观。 早在2017年时,科幻小说作家大卫布林就曾做出过一次预测:在三到…

周鸿祎,用AI再造一个新360

文|光锥智能,作者|刘雨琦、郝鑫,编辑|王一粟 ChatGPT的出现,让一直“沉寂”的科技大佬们再次热血沸腾起来。 比尔盖茨笃定地认为,“GPT是40年内最具革命性的机会”;黄仁勋一路高歌“…

Python 初版发布 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 2 月 20 日,在历史上的今天,吉多范罗苏姆正式对外公布 Python 代码,版本为 0.9.0。当前,Python 稳定版为 3.10.2…

实测阿里“通义千问”!一花独放不是春,百花齐放春满园

阿里的大模型“通义千问”今天开启内测,距百度“文心一言”发布差不多20天。今天看到消息后厚着脸皮找达摩院的朋友要邀请码,下午拿到后,赶紧测了一下。 官方网址:https://tongyi.aliyun.com/chat 刚好上次文心一言出来的时候测试…

如果建立一个由AI组成的社会……

你有没有想过,如果我们建立一个完全由AI组成的公民社会团体,让它们模仿人类的文明发展,那么这个AI社会最终将会进化到何种文明程度?需要明确的是AI社会只有AI,没有人类,完全是AI之间互相沟通交流&#xff0…

GPT4中文调教指南。各种场景使用指南。学习怎么让它听你的话。

前段时间我免费体验了chatGPT中文版,感觉很有意思,可以提各种各样问题,跟着机器人学习、讨论 接下来我们说一下中文调教指南。各种场景使用指南。学习怎么让它听你的话。 包括但不限于: 学术论文 它可以写各种类型的学术论文&am…

塔罗占卜GPT上线,工作感情运势都能问,几天上万次访问

克雷西 发自 凹非寺量子位 | 公众号 QbitAI 现如今,LLM已经无孔不入,就连玄学领域也在劫难逃。 这款塔罗GPT可以扮演占卜师,为你“指点迷津”。 上线短短几天,在所在平台就已产生万余次交互,仅次于乔布斯机器人。 我们…

postman测试上传文件(上传图片)

postman测试上传文件(上传图片)

PostMan上传文件到Java后台

post参数文件设置 Java后台接受并处理请求 /*** 上传表格数据* param model* param request* param response* return*/RequestMapping(value "shangchuan")public synchronized R fileUpload(Model model,HttpServletRequest request,HttpServletResponse response…