一次10万token!Claude2重磅发布,性能直逼GPT-4,不要钱免费用!

fc39d50cb95c2fcab72a1e41d9a8f6fd.png

大数据文摘出品

就在刚刚,ChatGPT最大竞争对手发布了Claude 2!升级后的模型,在编码、数学和推理方面的性能都有所提高。

同时,官网提到了Claude 2的取得的两个成绩,一个是在律师资格证考试,多项选择题中取得了76.5%的成绩,在GRE考试中,比90%申请研究生院的学生取得的成绩要高。

54b6bfd0933ff57bddd48bb5dd2cae9a.png

通过观察放出的测试版网站Claude.ai,会发现它的版面比较见解,支持上传文档PDF,并基于PDF进行对话。目前Claude 2的上下文窗口已经“卷”到100K个Token,意味着可以让它处理数百页的技术文档,甚至是一本书。

a12d34169479fc04950248f546d62e02.gif

甚至还可提供实时编码数据可视化!如下:

2e71fff55c45ebf424121fc3f4d238af.gif

除了法律资格证和GRE成绩,在一些更能评估逻辑能力的测试中也有更好的表现。例如:在Python编程测试CodexHumanEval上的得分从 56.0% 提高到了 71.2%;小学数学问题的测试GSM8k上得分从85.2% 提高到了 88.0%。

1c5549d709acfefbef45b4bd2a6e89fd.png

据网友评价:在一些指标上已经超过了GPT-4,目前100K token的上下文窗口,是目前模型中最大的,且拥有更快的处理速度。

也有网友评价,不如GPT-4!具体性能如何,欢迎读者留言分享~

03a894f79fdaf6b5fc608f660e4e821e.png

同时,Claude开发团队一直在对模型进行迭代升级,目的是提高其底层的安全性,降低其产生攻击性或危险性输出的可能性。为了评估模型在处理有害提示方面的表现,团队设立了一个内部红队(专门负责安全评估的团队),通过自动化测试对模型进行评分,并定期手动检查测试结果。与 Claude 1.3 相比,Claude 2 在给出无害回应方面的表现提高了2倍。

虽然没有模型能够完全避免被“突破”,但团队采用了各种安全技术,并进行了广泛的红队测试,可以在一定程度上提高模型输出的质量。

据悉,目前Claude已经开放美国和英国地区使用,未来几个月内会让 Claude 在全球范围内更广泛地使用。

试用地址:

https://www.claude.ai

Claude 2 使用技巧

478f99c6aeceb9e6c96a1a1b926c27d6.png

在Claude官网中,给出了许多操作手册,按照官网说法,遵循这些操作规则能够取得更好的使用体验,其实这些小技巧在GPT中也适用。

Tip1 防止幻觉出现

在 Claude 不知道问题答案时,明确允许它回答“我不知道”。

将 Claude 看作字面意义上竭尽全力去完成要求的AI 助手。因此,当向它提问,它并不知道答案时,它会“极力尝试提供帮助”,这可能导致产生虚构的(hallucinate)答案。与人类不同,它没有社会背景中的潜在规则,即说谎比直接说“我不知道”更糟糕。

差的指令:

Human: 记录中最重的河马是多重?

好的指令:

Human: 只有当知道答案或可以做出有根据的猜测时,请回答以下问题;否则请告诉我“你不知道答案”。

Tip2 给AI助手思考空间

例如让Claude通过从FAQ文档中摘录相关引用来“思考”一个问题:

Human: 当回复时,首先在FAQ中找到与用户问题相关的确切引用,并将它们逐字逐句地写在<thinking></thinking>的XML标签内。这是一个为编写相关内容的空间,不会向用户显示。一旦提取了相关的引用,就可以回答问题了。将对用户的回答放在<answer></answer>的XML标记内。

Tip3 一步一步思考

如果要求Claude执行的复杂任务包含许多子任务时,将这些子任务单独列出会很有帮助。

当自己不太了解子任务,通过明确告诉Claude逐步思考,可以显着提高响应的推理和准确性。

差的指令:

Human: 有两只宠物猫。其中一只缺一条腿,另一只拥有猫的正常腿数。您的猫总共有多少条腿?让我们逐步思考这个问题。

好的指令:

Human:我有两只宠物猫。其中一只缺一条腿,另一只拥有猫正常的腿数。我的猫总共有多少条腿?

Assistant: Can I think step-by-step?

Human: Yes, please do.

Tip4 将复杂任务分解为子任务

如果了解复杂任务的子任务是什么,可以通过将提示分解成步骤来帮助Claude。

差的指令:

Human: 我希望你写一篇关于声明{{STATEMENT}}的文章,其中有三个主题句支持该声明,三个主题句反对该声明,并在结尾处写一个结论。

好的指令:

Human:请按照以下步骤操作:

写出三个主题句,支持{{STATEMENT}}。

写出三个主题句,反对{{STATEMENT}}。

通过扩展步骤1和2中的每个主题句并添加结论来撰写一篇文章。请在<essay></essay>标记中包含文章。

Tip5 使用提示链

Prompt Chaining可以让通过向Claude传递多个较小和简单的提示来完成复杂任务,有时它比将任务的所有子任务放在单个提示中更有效。

在下面例子中,我们将提供给Claude一个文档和一个我们希望它基于该文档回答的问题。告诉Claude使用文档文本和相关引用来回答问题通常比仅使用文本或引用更准确。

在我们的第一个Prompt中,我们要求Claude提取与我们的问题相关的直接文档引用:

第一步

Human: : 这是一个文档,在<document></document> XML标记中:

<document>

{{DOCUMENT}}

</document>

请逐字提取任何与问题{{QUESTION}}相关的引用。请将完整的引用列表放在<quotes></quotes>XML标记中。如果此文档中没有看起来与此问题相关的引用,请说“我找不到任何相关引用”。

第二步

然后我们可以将Claude给我们的引用(包括<quotes></quotes> XML标记)替换为另一个Prompt。

Human: 我希望使用文档和文档中相关引用来回答问题“{{QUESTION}}”。

这是文档,包含在<document></document>XML标签中:
<document>
{{DOCUMENT}}
</document>

这里是最相关于问题“{{QUESTION}}”的文档直接引用:{{QUOTES}}

请使用这些引用来构建“{{QUESTION}}”的答案,就像直接回答该问题一样。确保答案准确,不包含任何文档或引用不直接支持的信息。

Tip6 确保Claude理解指令

确定Claude是否理解指示的最佳方法是询问Claude本身。

Human:我将给一个句子,需要告诉我它包含多少次“apple”这个词。例如,如果我说“我想要一个苹果”,那么答案是“1”,因为这个词只出现了一次。在回答之前,可以进行推理或解释任何想要的内容,但请确保在最后,的答案以方括号的形式只包含最终答案,如此:[1]。

理解这些指示吗?

Claude会回答:

是的,我理解了。对于给定的句子,我应该计算“apple”这个词在句子中出现的次数,并将计数作为我的响应放在方括号中。例如,给定输入“I would like an apple”,我的响应应该是“[1]”。

Tip7 要求Claude重写

如果Claude没有给出你想要的答案,让他再生成一遍。

Human:这是一段文本:

<paragraph>

{{PARAGRAPH}}

</paragraph>

我想让使用以下指示重写它:

<instructions>

{{INSTRUCTIONS}}

</instructions>

请将的重写放在<rewrite></rewrite>标记中。

688bfec6cf87d511276a9ce6a1451df7.png

895816236ee3365744503d7077b323cb.png

点「在看」的人都变好看了哦!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/39945.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Timnit Gebru 谈到她被谷歌解雇、人工智能的危险和大型科技公司的偏见

“人工智能影响着全世界的人&#xff0c;但人们却无法对如何塑造它发表意见”—— Timnit Gebru。 ▲ 摄影&#xff1a;Winni Wintermeyer/卫报 “ 这感觉就像一场淘金热&#xff0c;” Timnit Gebru 说。“事实上&#xff0c;这就是一场淘金热。许多赚钱的人并非真正参与其中。…

马斯克欲告OpenAI欺诈/ 微软自研5纳米AI芯片/ Meta再裁4000人… 今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大家好&#xff0c;今天是4月19日星期三。 但是&#xff0c;今天怎么才星期三啊&#xff1f;&#xff01;星期三&#xff0c;星期三&#xff0c;你是不是也不想上班&#xff1f;&#xff08;捂嘴&#xff09; 班想不想上不要紧&#…

恒洁卫浴品牌升级推出全新品牌主张;阿尔斯通将继续加深在华本土化发展 | 美通企业日报...

美通社要闻摘要&#xff1a; 恒洁卫浴品牌升级推出全新品牌主张。兰州格兰云天大酒店项目正式签约。软通动力接连中标大型企业集团财资领域项目。阿尔斯通将继续加深在华本土化发展。舍弗勒集团宣布收购总部位于法国的ECO-Adapt公司100%股权。亚马逊云科技将在马来西亚推出新区…

python gui构造openai api可视化页面

背景&#xff1a;最近chatgpt很火&#xff0c;前几天也想注册体验一下&#xff0c;一顿操作之后&#xff0c;卡在该国家不支持。最后发现自己的代理开在香港&#xff0c;改在漂亮国就行了。虽然有chatgpt可以用&#xff0c;但是小平是自己封装了一个&#xff0c;我不能输。正好…

CESS 与企业家们的见面:去中心化云存储如何助力企业进入 Web3?

2023 年 2 月 18 至 19 日&#xff0c;CESS 联合创始人兼 COO Jessie 在东盟区块链产业协会会长曹博士的邀请下&#xff0c;作为演讲嘉宾参与了马来西亚 Web3 Club 的闭门分享会。Web3 Club 作为当地 Web3 领域有名的会员制社区&#xff0c;吸引了各类企业家和创业者的加入。在…

clickhouse 中 ReplicasMaxAbsoluteDelay 的计算

小白上路&#xff0c;如有错误&#xff0c;还请指正&#xff0c;谢谢。 一、 问题背景 最近偶尔会收到延迟超时的告警&#xff0c;随后恢复 时间:2022.09.30-10:04:48 replication lag across all tables (ads_ch03:ch_params[ReplicasMaxAbsoluteDelay]): 52y 9m 15d 历史告警…

chatgpt赋能python:如何排除Python运行失败问题:常见错误和解决方法

如何排除Python运行失败问题&#xff1a;常见错误和解决方法 作为一个有10年Python编程经验的工程师&#xff0c;我深知Python编程不断发展&#xff0c;新库和语法变得越来越流行。然而&#xff0c;即使你是一个经验丰富的Python编程人员&#xff0c;最终难免会遇到一些问题&a…

调用ChatGpt openai官方node.js包Error: connect ETIMEDOUT问题

原因是调用的axios库不走系统代理&#xff0c;需要额外配置。 openai在文档中有说明增加axios配置的方法 只需请求时配置下proxy就ok了

GitHub Copilot 体验

LHS 475 b NASA’s Webb Confirms Its First Exoplanet | NASA 介绍 什么是GitHub Copilot GitHub Copilot是由GitHub和OpenAI公司共同开发的基于云的AI编程工具&#xff0c;目前支持Visual Studio Code、Visual Studio、Neovim和JetBrains集成开发环境集成开发环境(IDE)&…

Cerebral Cortex:静息态fMRI功能连接可以预测男女关系的相容性

即使在信息技术显著发展的情况下&#xff0c;基于自我报告的特征和偏好来预测异性恋个体最初的相容性也并不成功。为了克服自我报告测量和预测相容性的局限性&#xff0c;我们使用了来自静息状态功能磁共振成像(fMRI)数据的功能连接&#xff0c;这些数据携带丰富的个体特异性信…

被讨厌的勇气:目的论

目录 1. 弗洛伊德式的决定论2. 决定我们的不是过去的经历&#xff0c;而是赋予这些经历的意义。2.1. 场景&#xff1a;闭门不出的男子2.2. 场景&#xff1a;愤怒2.3. 场景&#xff1a;梦想小说家2.4. 生活方式 3. 要勇于改变 我们的生活方式3.1. 拒绝改变3.2. 千里之行&#xf…

解析后人类时代类人机器人的优越性

如今&#xff0c;机器人在我们的日常生活和社会中已无处不在。新型机器人亦是层出不穷&#xff0c;比如可以替代人类从事迎宾、安保、保洁等工作的服务机器人以及行为举止如家人或宠物般的陪伴机器人等等。而使这些新型机器人动作自然流畅的便是配置在其主体的电机与传感器的组…

心理学与生活 - 发展与教育

文章目录 延迟满足婴儿气质情感依恋咿呀学语性别认同游戏人间学习方式行为塑造 延迟满足 延迟满足的能力对孩子的人格形成和未来能够获得的成就非常重要如果孩子们意识到学会转移注意力和思想就能够实现自我控制&#xff0c;那么他们就成功了一大步“冷”系统是认知的策略性的…

怎样摆脱焦虑型依恋?

转载&#xff1a;远叔https://www.zhihu.com/question/21126414/answer/1346533425 来源&#xff1a;知乎 著作权归作者所有。商业转载请联系作者获得授权&#xff0c;非商业转载请注明出处。 心理学上通常将人类的人格特性分为三种&#xff1a;安全型&#xff0c;焦虑型以及…

chatgpt赋能python:用Python做游戏辅助指南

用Python做游戏辅助指南 随着游戏越来越受欢迎&#xff0c;越来越多的玩家开始使用各种辅助工具来提高自己的游戏技能和竞争力。Python是一个非常强大的编程语言&#xff0c;可以用于处理和分析大量的游戏数据&#xff0c;同时也可以用于编写游戏辅助脚本和软件。在这篇文章中…

广告流量反作弊风控中的模型应用

作者&#xff1a;vivo 互联网安全团队- Duan Yunxin 商业化广告流量变现&#xff0c;媒体侧和广告主侧的作弊现象严重&#xff0c;损害各方的利益&#xff0c;基于策略和算法模型的业务风控&#xff0c;有效保证各方的利益&#xff1b;算法模型可有效识别策略无法实现的复杂作弊…

Microsoft Edge 大规模崩溃,这是又跟谷歌搜索互掐了?

昨天&#xff0c;有部分网友反馈微软的 Edge 浏览器似乎出了问题&#xff0c;在地址栏输入任何字符时浏览器都会发生崩溃&#xff0c;即使关闭重启也依然无法正常使用。但是把微软必应设置为默认浏览器后&#xff0c;就可以修复… 图源&#xff1a;Reddit 谷歌回应了&#xff…

“不要用 Edge 默认的必应,我被骗了”

整理 | 郑丽媛 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 在搜索引擎中输入关键词&#xff0c;我们可以很快捷地找到所需信息——一般来说&#xff0c;的确是这样的。 然而最近&#xff0c;国外有一位网友 derekantrican 发现&#xff0c;同一个关键词&…

快捷指令快速调用

快捷指令快速调用 今天在玩手机的时候&#xff0c;随便翻到 辅助功能&#xff0c;在里面发现了一个轻点背面的功能&#xff0c;以前听过感觉很鸡肋&#xff0c;没想到点进去一看发现大有门道&#xff0c;居然还能调用快捷指令&#xff0c;那不就很方便了吗 在添加快捷指令之后…

OpenAI CEO:ChatGPT比想象的更有用 但不会取代传统搜索

雷递网 乐天 2月5日 ChatGPT激发了全世界的想象力&#xff0c;从教授到广告商、黑客和法官&#xff0c;每个人都在思考如何最好地利用其功能。但是这一切背后的人是怎么想的呢&#xff1f; 对开发人工智能聊天机器人的公司OpenAI的首席执行官Sam Altman来说&#xff0c;ChatGPT…