面向未来的智能对话新体验—Claude2

a6ef8a25784b09b4c5c025ee4b9290c1.jpeg Claude助手发展历史
 Anthropic 公司是由OpenAI前研究副总裁带领10名OpenAI前员工于2021年成立的。这里面既有GPT-3首席工程师Tom Brown,也有OpenAI安全和政策副总裁Daniela Amodei,可以说是带走了相当一批核心人才。出走成立新公司的原因之一,自然是对OpenAI现状并不满意。 从前几年开始,微软频频给OpenAI注资,随后又要求他们使用Azure超算来搞研究,而且将技术授权给微软,甚至为微软自己的投资活动筹集资金。这与OpenAI创立的初衷相悖,一批员工便想到了离职创业。当然,还有一部分原因是这群人想做能控制、可解释的AI,说白了就是先搞明白AI模型背后的原理,从而在提供工具的同时设计更多可解释的AI模型。于是,在OpenAI彻底变成“微软揽钱机器”后,他们便从这家公司离开,创办了Anthropic。Claude目标是成为一个安全、接近人类价值观且合乎道德规范的AI系统。目前(2023年4月)Anthropic目前团队大约80人,融资额超过13亿美元,估值达到41亿美元。Claude是在Anthropic自主研发的大型语言模型Create基础上设计打造而成。Create使用Anthropic自行收集的巨大多样化训练集进行训练,并采用了原创性的自监督学习方法。相较于ChatGPT背后的GPT模型采用的监督学习方式,这种方法更能促进模型对各种场景的泛化理解,强化常识推理能力,更好地学会人类交互模式。经过持续迭代优化,Claude助手已经发布了多版本,当前最新版本集成了Create的最新能力,可以提供流畅、知识丰富、上下文关联的英文语音交互体验。模型方面,Anthropic宣称其规模已经超过175亿参数,相当于GPT-3的1.5倍。
Claude功能更新
体验网址:https://claude.ai/
  • 一次记忆10万token,相当于75000个单词
Claude 的上下文窗口从 9K token 扩展到了 100K token(Claude 2 已经扩展到 200K token,但目前发布版本仅支持 100K token)。升级后的Claude-100k版本,对话和任务处理能力得到极大提升。一方面,是“一次性可处理文本量”的增加,直接拓宽了Claude的可从事岗位类型。之前,大模型最多用来处理几十页的文档。现在,Claude已经能速读公司财报年报、技术开发文档、识别法律文件中的风险、阅读上百页研究论文、乃至于处理整个代码库中的数据。最关键的是,它不仅能通读全文总结其中的要点,还能进一步完成具体任务,如写代码、整理表格等。Claude可以是你的「代码伴侣」,分分钟就能做个演示。比如,上传一个240页的Langchain API文档,让它基于这个文档用Anthropic的语言模型 做一个Langchain的简单演示。

114fd798f7bd71313d79c2ed3a0d3c62.jpeg

此外,Claude100k还能处理大约6小时的音频量。比如说,把一个马斯克的播客内容转录成了58k个token量的文本,然后用Claude进行了总结和问答。另一方面则是“记忆力”的增加,带来了对话题掌控度的提升、以及聊天能力的提升。此前大模型经常会出现“聊着聊着忘了话题”的情况,对话窗口总字数超过几千字后,开始胡言乱语。但现在,拥有一次10万+个token记忆力的Claude,则不太可能出现这种情况,反而能牢牢记住和你聊过的话题,连续交谈上好几天。
  • Claude 的训练数据主要是英语,但 Claude 2 的训练数据中非英语数据比例已经明显增加。经测试发现claude对中文的理解能力相对于chatgpt要好很多。
  •  Claude 2 的训练数据包括 2022 年和 2023 年初更新的数据。这意味着它在互联网新闻等方面了解的更多。
性能测试
在标准基准上评估测试了 Claude 2、Claude Instant 1.1 和 Claude 1.3,包括用于 python 函数合成的 Codex HumanEval、用于解决小学数学问题的 GSM8k、用于多学科问答的 MMLU、针对长故事问答的 QuALITY、用于科学问题的 ARC-Challenge、用于阅读理解的 TriviaQA 和用于中学水平阅读理解与推理的 RACE-H,具体的评估结果如下表所示:

0e2357bc46bd7cb2538e8806b60fdcb4.jpeg

值得注意的是,Claude 2 生成代码的能力有了明显的提升,在 Codex HumanEval 上的得分从 56% 上升到 71.2%。该研究还用几个常见资格水平考试的题目测试了 Claude 2 的实际能力。首先,Claude 2 在美国律师资格考试(Bar Exam)的多项选择题测试中得分率为 76.5%,高于 Claude 1.3 的 73.0%。

bb6960e83e44513eafa4250215d428e9.jpeg

其次,研究团队还用美国研究生入学考试(GRE)测试了 Claude 2 的能力水平,Claude 2 在 GRE 阅读和写作考试中的得分高于 90%,在定量推理方面已达到了参加 GRE 考试的考生的中位数水平。

1e1cc1e367157bb9937a291fd5f30a2c.jpeg

最后,该研究还在美国医师执照考试(USMLE)题目上测试了 Claude 2

5d1fd714412465f1c2706c4d8fd8effc.jpegAnthropic 表示,人工智能写作平台 Jasper 和代码导航工具 Sourcegraph 等公司已开始将 Claude 2 纳入其运营中。

f46a240c243543c3df79aa2d0f8c7499.jpeg

总结
综上,我们可以看出,在人工智能领域,Claude 2凭借其卓越的自然语言理解能力、丰富知识问答以及友好交互,已成为一个不可忽视的强力新竞争者,在许多方面领先于当前最热门的ChatGPT。Claude 2的出现给人机交互带来新的思考和可能。相信未来随着其能力的不断提升,它必将给我们带来更加智能、更加人性化的语音交互体验。 面向未来的智能对话新体验—Claude2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/64600.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

仿抖音 抖音接口开发文档

用到的工具 前端框架 API接口 后端IDEA 分层 数据库

抖音接入避雷指南,你值得拥有!

/ 今日科技快讯 / 昨日,美国太空探索技术公司SpaceX首席执行官埃隆马斯克开始介绍其星际飞船项目取得的最新进展以及未来计划。星际飞船是一种大型航天器,旨在将人们送往月球、火星等太空目的地。星际飞船的概念在过去几年中已经多次改变&#xff0c…

BottomSheetDialogFragment仿制抖音评论框

没有效果图的示例简直就是扯淡 BottomSheetDialogFragment BottomSheetDialogFragment 继承自 AppCompatDialogFragment,官方解释为模态底部表,是 DialogFragment 的一个版本,它使用的是 BottomSheetDialog,而不是浮动对话框。Bo…

uniapp 抖音授权登录、发布、分享 Ba-Aweme

简介(下载地址) Ba-Aweme 是一个集成抖音的uniapp插件,支持抖音授权登录,发布图片、视频,分享到联系人群组,直接拍摄等。自带选择图片和选择视频方法。 注意: 使用前,先到抖音开放…

四,产品创建和开发板连接天猫精灵后台

一,WiFi设备接入天猫精灵 https://living.aliyun.com/建议使用Chrome浏览器 接入流程: 产品的product secret: 手机下载天猫精灵app,扫码配网。 测试设备: 设备三元组: “product_secret”: Vkj0eNbl…

【蓝牙Mesh笔记 ①】ESP32-C3 模组上实现天猫精灵蓝牙 BLE Mesh AliGenie 接入,无需WiFi 连接也可以实现天猫精灵语音控制。

本系列博客学习由非官方人员 半颗心脏 潜心所力所写,仅仅做个人技术交流分享,不做任何商业用途。如有不对之处,请留言,本人及时更改。 系列一:ESP32系列模组基础学习系列笔记 1、 爬坑学习新旅程,虚拟机搭…

我们需要为机器人行业做点事?

本文内容基于近段时间国内外几个比较火热的事件的有感,做一些联想,科技的未来在哪里? 1.chatgpt的出现,科技巨头们都开始向大模型概念进行业务延伸(阿里、百度、讯飞、360、包括今天刚得到的消息,华为也准…

AIGC+机器人=具身智能?硅谷最酷的两个男人不谋而合预演“下个浪潮”

收集整理|小鱼新的AI题材层出不穷,这次轮到“机器人AI"融合而成的具身智能概念。 “硅谷钢铁侠"马斯克和热爱黑色皮衣的"显卡教父”黄仁勋均作出积极表态,可谓不谋而合。 当地时间5月16日,特斯拉2023年年度股东大会召开&…

微软的焦虑?想多了!从.NET6 Preview2到大厂招聘,起飞

看了篇文章叫《从.NET看微软的焦虑》,这里忍不住先吐槽一下,看完不仅毫无收获,而且有一种先起个夺眼球的标题,然后再东拼西凑找证据。讲真的,微软市值基本上等于“阿里腾讯百度”三者之和,居然还焦虑的无法…

帆软BI产品FineBI下一个强硬对手——Metabase

在商业BI产品中,国内的FineBI(帆软的FineReport报表工具之外的另一款BI产品)处于领先地位,这些年大大小小的开源BI系统出了不少,但对Tableau、FineBI这类商业软件的影响其实并不是很大,主要原因是这些开源软…

打造一个window桌面应用:在线聊天对话机器人

大家好,我是辰哥~~~ 本文目标:打造一个window桌面应用:在线聊天对话机器人。 今天辰哥教大家做一个在线聊天对话机器人桌面应用,已经打包成exe可执行文件,读者可以直接拿来使用, 先上演示图 聊天客户端桌…

小Pang聊嵌入式界面开发

怎么说呢,昨天与嵌入式界面开发高手小Pang,聊了一下嵌入式界面开发方面的东西,小Pang也是很多经验的开发人员了,对这方面,是他的拿手好戏,官方的说,他是这方面的权威,个人来说,他是这…

跟随CSDN走进微软

文章目录 前言一、微软亚洲研究院(MSRA)?二、走进MSRA1.微软的技术发展及愿景2.工作环境 总结 前言 作为CSDN新刊物《新程序员》的读者,我很荣幸参加了CSDN走进微软的活动,见识到了名企的风范,也见到了许多研究院的前沿科技&…

拓扑梅尔智慧办公平台(Topomel Box) 3.0发布

今天,2022年12月21日,我很高兴地宣布:拓扑梅尔智慧办公平台(Topomel Box)的3.0版本正式发布。 下面,请允许我简单地介绍下新版本的一些基本情况。 新特性 1) 统一的文件管理 将所有你关心的文件都统一存放在同一个地方&#xff…

Android:“金九银十”战役打响还没看到跟BAT大佬的差距就危险了!来看看如何在大厂面试一击而中

前言 金九银十已来临,打响九月第一战!开启中长线布局策略。 想必现在有许多朋友,都在为即将到来的金三银四做准备,不知道各位朋友是否十足的把握能拿到自己心仪的Offer呢? 下面无偿分享一些我多年面试和工作经验给你…

面试BAT、Facebook、微软、网易等大厂经验分享(获得8个offer)

背景 最近陆陆续续已经开始校招(秋招)了,现在分享下石头当年参加校招的一些经历。本文最早是发布在 blog 上的,现在通过公众号分享给大家,当然会在原有的基础上做了调整。 幸亏当年有记录,不然现在回想肯…

Teams Tab App 的 manifest 分析

上一篇文章我们深入来分析了 tab app 的代码,这篇文章我们研究一下 manifest。 Teams 的 manifest 实际上是一个很复杂的 json,里面的配置非常多,之前的文章陆陆续续的讲过一些配置,我们在这篇文章里来看看关于 tabs 的一些配置&…

2020最新BAT Android高端技术面试145题详解

前言 本篇是结合我之前面试别人的经验,以及跟一些在BAT上班的朋友,讨论总结出的一份很全面的大公司需要用到的一些高端Android技术。这里也专门整理了一个文档,重点和难点都有详细解析。这些题目有点技术含量,需要好点时间去研究…

百度文心一言推出内测专用独立 App;暴雪回应被网易起诉:未收到相关诉状;iOS 17或支持第三方应用商店 | 极客头条

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#x…

真的来了!百度文心一言APP在哪里下载?跟网页版有什么区别?

此前百度公开宣布文心一言没有APP,所有文心一言APP都是假的。并针对文心一言盗版APP进行举证上诉,还对苹果应用商店起诉。时隔半个多月,今天上午,小宝在文心一言官方网站上看到内测专用APP下载链接,真正的文心一言APP终…