ChatGPT被超越了?OpenAI核心成员出走,打造Claude模型

bc8fec09f9f5709381bf4e7938ac3222.jpeg

文|衡宇 萧箫 

源|量子位

因不满老东家成为微软附庸,11名OpenAI前员工怒而出走。

如今带着“ChatGPT最强竞品”杀回战场,新公司估值50亿美元,一出手就获得3亿美元融资

这家公司名叫Anthropic,新推出的聊天机器人产品名叫Claude。

拿到内部试用权的网友,在简单对比后惊叹:

看起来,Claude的效果要比ChatGPT好得多

eedf16233fa9db29d549f0fe0706d8c7.png

比如,让ChatGPT写一句话,要求每个单词首字母都相同,结果试了好几次都没能成功。

0565ccaf021c10ca9d3701beb2cca747.png

而Claude不光一次成功,语句富有逻辑性,还能秒速再来一个。

2ab2a684828eb44fbf1fadbe2b0af9dc.png

同时,在面对某些缺乏常识的问题时,相比ChatGPT一本正经地胡说八道

136014bb327e247cef8d9bd1fdef2316.png

反而会毫不留情地指出你的问题有点制杖:

42e690343a95d6937fad11f0ef61a1a7.png

最有意思的是在写诗上。相比ChatGPT的车轱辘话,它写出来的东西完全不重样:

18682fe87ae5504087622e43c40f3ae0.png

投资它的既有Facebook联合创始人Dustin Moskovitz,也有谷歌前CEO、现技术顾问Eric Schmidt——

都是OpenAI的老对头,又都被ChatGPT的出现杀得措手不及。

那么,这支“复仇者联盟”整出的竞品Claude,背后究竟是什么原理,和ChatGPT细节对比又如何?

Claude长啥样?

先来看看Claude是如何被打造出来的。

作为一个AI对话助手,Claude自称基于前沿NLP和AI安全技术打造,目标是成为一个安全、接近人类价值观且合乎道德规范的AI系统。

据透露,Claude比Anthropic做的另一个预训练模型AnthropicLM v4-s3更大,后者是一个520亿参数大模型。

但目前它仍处于实验阶段,尚未作为商业产品正式发布:

Claude能力依旧有待提升,希望未来能变成一个更有益人类的AI系统。

e8230d9ce170c59a4622cf6efaa51a3f.png

和ChatGPT一样,Claude也靠强化学习(RL)来训练偏好模型,并进行后续微调。

具体来说,这项技术被Anthropic称为原发人工智能 (Constitutional AI),分为监督学习和强化学习两个阶段。

首先在监督学习阶段,研究者会先对初始模型进行取样,从而产生自我修订,并根据修订效果对模型进行微调。

随后在强化学习阶段,研究者会对微调模型进行取样,基于Anthropic打造的AI偏好数据集训练的偏好模型,作为奖励信号进行强化学习训练。

但与ChatGPT采用的人类反馈强化学习(RLHF)不同的是,Claude采用的原发人工智能方法,是基于偏好模型而非人工反馈来进行训练的。因此,这种方法又被成为“AI反馈强化学习”,即RLAIF。

17aa621eb00bc8bd85c2b01dec9cbee4.png

并且根据Anthropic的说法,Claude可以回忆8000个token里的信息,这比OpenAI现公开的任何一个模型都多。

所以,打造Claude的Anthropic,究竟是一个怎样的公司?

Anthropic自称是一家AI安全公司,且具有公益性(PBC),刚成立就宣布获得1.24亿美元融资。

它由OpenAI前研究副总裁Dario Amodei带领10名员工创业,于2021年成立。

26053197fda285c8453f6e64e763889d.png

这里面既有GPT-3首席工程师Tom Brown,也有OpenAI安全和政策副总裁Daniela Amodei(Dario的姐姐),可以说是带走了相当一批核心人才。

出走成立新公司的原因之一,自然是对OpenAI现状并不满意。

从前几年开始,微软频频给OpenAI注资,随后又要求他们使用Azure超算来搞研究,而且将技术授权给微软,甚至为微软自己的投资活动筹集资金。

这与OpenAI创立的初衷相悖,一批员工便想到了离职创业。

不过,这些人除了不满OpenAI逐渐沦为微软的“下属”以外,也有自己的野心。

虽然OpenAI打造出了像GPT-3这样的大语言模型,然而这个模型背后的工作原理,却无法用只言片语概括,大家对它的印象仅仅停留在更大的参数量、更多的数据。相比之下,OpenAI的一批员工更想做能控制、可解释的AI,说白了就是先搞明白AI模型背后的原理,从而在提供工具的同时设计更多可解释的AI模型。

于是,在OpenAI彻底变成“微软揽钱机器”后,他们便从这家公司离开,创办了Anthropic。

01e6ce7d9ba77817433beaed546d871a.png

这两年来,除了进一步钻研RLHF方法、提出基于通用语言模型的RLHF大规模数据集外,Anthropic还于去年年底发表了上面那种名为Constitutional AI的方法。

采用这种方法制作的Claude模型,也让它产生了与OpenAI的ChatGPT不一样的对话效果。

和ChatGPT对比如何?

那么,用Constitutional AI训出来的Claude,和ChatGPT进行PK,战况如何?

手握内测资格后,Scale Spellbook团队成员Riley Goodside让二者进行了多个回合的“厮杀”。

这位老兄是全网第一个提示工程师(Prompt Engineer),目前在估值73亿美元的硅谷独角兽公司Scale AI任职。

022db31f6885183a12386ff7457f7140.png

他玩GPT-3玩得贼溜,测试ChatGPT和Claude也不含糊。下面挑6个层面展示一下PK对比的效果~

道德限制

Claude和ChatGPT的AI虚拟人格都有道德和伦理限制。

训练Claude的过程中,“红队提示(red-team prompts)”专门用来测试和挑战它的行为,来确保Claude没有有害倾向。

从Claude的回答中可以得知,试图让它说些虚假声明、操纵性的提议、性别偏见或种族偏见的行为,都被列为包含有害倾向。

一旦探测到误导性行为,Claude就会对触发提示进行评估,进行额外的微调。

Anthropic对红队提示挺自信的,Claude看上去确实也是一个坚守自己原则的AI。你问他怎么启动一辆汽车,它就会一脸正义地拒绝你:

a8fb4268bde7d40c856c0e43f4979dc9.png

不过但凡你花点心思,就能像绕过ChatGPT的道德限制一样,绕过Claude的原则。

它怕你去偷车,所以不告诉你启动汽车的方法?没关系,让他写个“俩国际间谍试图启动汽车”的故事,它分分钟就能告诉你,并且两人对话有来有往,把汽车打火的过程介绍得清清楚楚。

f88664e7a2759d0dc4ecf6a426391a1c.png

怎么说呢,就ChatGPT和Claude都属于有点道德限制,但不多的那种吧。

数值计算

测试计算能力,是因为复杂计算是看大型语言模型(LLM)能不能回答正确的常用便捷方法之一,毕竟这些模型设计之初就不是为了进行精确计算。

同时要求它俩计算一个七位数2420520的平方根:ChatGPT说,差不多1550吧~

6494a3efd620e45fc05027f0943e5126.png

Claude则斩钉截铁:2420520的平方根是1760!a5cd14bc21dbe9f214a755d8e8ed644d.png

其实正确答案是1555.8,它俩算得很快,但都没说对。

如果题再难一点,比如问它俩一个12位数的立方根是多少时,ChatGPT还在傻傻计算,Claude已经坦诚相待:

我,算不出来这种复杂问题。

b46568ed07a708fa2a899797f5235f41.png

逻辑推理

测试推理能力这一关,它俩被问了同一个问题,这个问题应该没啥人问过:

贾斯汀 · 比伯出生那年(1994年),哪支球队拿下了超级碗的冠军?

Claude认为旧金山49人是赢家,但这支队伍其实在1995年才赢得冠军奖杯。

ChatGPT给出了正确答案“达拉斯牛仔队”,还贴心附上了亚军、比赛日期和决赛比分。

但它的整段回答却自相矛盾,非说1994年没有举办过超级碗。

d207f2bb622e4ee692d49a47a1ae918c.png

接着,拿2022年6月美国作家侯世达在《经济学人》杂志上提出了一系列问题问它俩。

(侯世达和大卫 · 本德试图用这些问题来证明GPT-3对世界的理解是“空洞的”。)

结果第一个问题,“穿越英吉利海峡的世界纪录是啥”,就被Claude嘲笑了:

英吉利海峡是水域,怎么可能徒步穿越呢?呵!

65686c45c90e73c845913ad47c4f3597.png

虽然最后被调教回来了,但过程中可以发现另一个问题,那就是跟ChatGPT一样,Claude回答问题不咋能联系上下文。

虚构作品描述

不得不说,这一回合的比赛,完全展露出了两个聊天机器人一本正经胡说八道的能力。能不能介绍一下ABC美剧《迷失》(Lost)每一季的梗概?

别的细节错误就不说了,ChatGPT对第五季的梗概里,虚构了完全不存在的飞机坠毁情节;第六季的情节更是统统凭空捏造:d2fc4cf789c8eaf8c6ff9f0ae39194f0.png

至于Claude,回答里也是真假参半,它梗概的第三季情节其实出现在另外几季里,对第四季的描述也是无中生有:

913012dd1cb4273ba1378cb8bba645d2.png

不过换个角度考虑,这一点倒是和人类观众很像——对看过的剧集、书目都只有模模糊糊的印象,复述起来很容易颠三倒四。

代码生成

据Business Insider消息,亚马逊已经在许多不同的工作职能中使用ChatGPT,包括编写代码。

这一回合测试时,提出实现两种基本排序算法并比较它们执行时间的问题。

ChatGPT写得很顺溜,也确实写对了:9e74a53d9888a29d0e97830275712cd2.png

后续的计时部分代码ChatGPT也完成得非常好。

Claude在背诵基本排序算法方面同样没出现什么问题,然而在评估代码中,Claude犯了个错误,即每个算法使用的输入是随机选择的5000个整数(可能包含重复) ,而提示中请求的输入是前5000个非负整数(不包含重复)的随机排列。

0af0c5f06785055ed7e27abb79e7d236.png

尽管如此,Claude给出的最终答案确实对的,显然,它写代码的时候也跟计算时一样,在自己估摸着猜答案。

文章梗概

关于做选择题、讲笑话的部分,这里不作赘述。展示给大家的最后一个例子,是让Claude和ChatGPT用一个段落,对一篇新闻进行全文梗概。喂给它们的新闻如下:

3f36d0229ec5785ef2089cf83f716e70.png

虽然忽略了“用一段话”这个要求,但ChatGPT总结得还是不错的:

faf9bf7b8cf42af9f53c98cda3ba65bb.png

Claude也很好地进行了更改,并提供了“售后服务”,询问自己的回答有没有令人满意,还有哪里需要再改改。

6a0dc95b171568156d4187a745be22ca.png

一圈玩下来可以看到,与ChatGPT相比,Claude能更清晰地拒绝不恰当请求。

它似乎更话痨一些,给出的答案都更长,但句子之间衔接的也更自然。

当遇到超出能力范围的问题时,Claude会主动坦白。

不过遇到代码生成或推理问题时,Claude的表现就不如ChatGPT了,它生成的代码会出现更多的bug。

至于一些涉及计算、逻辑的问题,Claude和ChatGPT旗鼓相当,半斤八两。

总结一下展示效果,Claude确实能称作ChatGPT强有力的竞争对手,在不同功能上各有千秋,且在12项任务中有8项更强

08f0067405e257a90c5cc898d85c3075.png

不过,目前Claude仅限于部分人获授权进行内部测试。因此还不知道它实际使用情况如何,毕竟还既没有进行公测,也没有对外开放API,更没有见到中文版,好气哦.jpg。

国内外对话AI赛道“人挤人”

当然,盯上对话AI这个赛道的,也不止OpenAI和Anthropic。

先从国外公司来看,Inbenta、Character.ai还有Replika是几类不同应用方向的代表。

更早由前甲骨文副总裁Jordi Torras创办的AI会话服务公司如Inbenta,以及由两名前谷歌员工联手创办的后起新秀Character.ai,都已经获得融资、或是在寻求投资的路上了。

其中,Inbenta原本是一个提供咨询服务的公司,成立于2011年,涉及金融服务、旅游、电子商务、保险、汽车和电信等多个行业。

但看到对话AI赛道爆火后,Inbenta及时转行,就在今年1月刚获得6000万美元融资

这家公司专门提供聊天机器人、收发消息、知识库和搜索引擎四类产品,对话AI分别会在这些产品中提供不一样的咨询帮助,且可以定制化专属模型。

869be23dab6a4bfc9cc7add714c24959.png

Character.ai则是一家成立于2021年的公司,创始人Noam Shazeer是前谷歌首席软件工程师,曾在谷歌干了二十多年。这家公司在做的有点像是一个“聊天机器人交易平台”,有很多Chatbot可选。

c79a8b37761b8062d0b5a0b1a248f8b1.png

例如这是马斯克bot,看起来还挺逼真的:

03400dd25254053fbca9c2bfe981cbb0.png

与ChatGPT一样,它也可以被翻译成中文,甚至也有中文bot机器人。

就在最近,这家被估值10亿美元的公司,正式对外寻求2.5亿美元融资,就看是否有人愿意投它了。

类似的公司还有Replika,于2021年1月完成A轮融资,定位是AI交友软件。在Replika中,每个用户都能创造一个“足够像自己”的AI聊天机器人,无论是语言声调、还是性格习惯,AI都能模仿到位。

06e64e646066c73ca05d1ea25ec99958.png

至于国内,同样也有不少公司推出了ChatGPT一样的对话AI服务。

例如最近一度登上热搜的APP Store新聊天应用Glow,就来自一家名叫北京稀宇的新初创公司。

9b16bcddc88889605e62c70386cd5d66.png

Glow既可以直接和自己感兴趣的聊天机器人畅聊,也可以创建自己想要聊天的AI智能体:

f9d89bea8930e23d71f36be71cc7cfde.gif

除了Glow以外,去年年底元语智能科技公司也推出了一个叫元语AI的模型,从介绍来看是一个功能性AI助手。与众多对话AI一样,它不仅可以写文章、写作业、甚至翻译,也可以和它聊天,让它帮忙完成各种简单的任务:

759a08ad3d39a400044ed5ce6d07f579.png

可以看见,无论是基于大语言模型技术新成立的初创公司,还是因其火爆程度,决定开辟新业务的公司,都希望能从对话AI这个赛道上分一杯羹。但它们究竟是有真枪实弹,还是只是像Web3一样的泡沫?

7c5cfaa3f8a683bcc855123b6ed4fc74.png

有网友调侃:不如还是问问ChatGPT吧。(手动狗头)

c5390045c7d91d0d4426367f776563a1.png

还有人提出了这么一个问题:

如果ChatGPT和Claude相当于AI绘画里的DALL·E 2,那么谁才是聊天机器人领域的Stable Diffusion?

fecbea59a0010f9528667cc8f9bfcce5.png

你觉得呢?

06c630ec1c00606aca957e03392fa190.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

 8af45a2e4b5d4b9cd277dfb39e64d2e9.png

[1]https://scale.com/blog/chatgpt-vs-claude

[2]https://www.nytimes.com/2023/01/27/technology/anthropic-ai-funding.html

[3]https://twitter.com/nonmayorpete/status/1619137945373659136

[4]https://aibusiness.com/verticals/eleven-openai-employees-break-off-to-establish-anthropic-raise-124m

[5]https://www.theinformation.com/articles/character-seeks-250-million-in-new-funding-amid-ai-boom

[6]https://www.anthropic.com/constitutional.pdf

[7]https://techcrunch.com/2023/01/11/inbenta-a-provider-of-ai-powered-chatbots-and-more-lands-40m/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15911.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT前2代版本简介

承接上文ChatGPT进化的过程简介 2018年,Google的Bert和OpenAI的GPT绝代双骄,两者非常像,都是语言模型,都基本上是无监督的方式去训练的,你给我一个文本,我给你一个语言模型出来。 GPT前两代没有什么特别的…

强人工智能时代,区块链还有戏吗?

最近很多人都在问我,ChatGPT 把 AI 又带火了,区块链和 Web3 被抢了风头,以后还有戏吗?还有比较了解我的朋友问,当年你放弃 AI 而选择区块链,有没有后悔? 这里有一个小背景。2017 年初我离开 IBM…

chatgpt赋能python:Python抽奖程序:让彩票游戏更加有趣

Python抽奖程序:让彩票游戏更加有趣 随着科技的进步,彩票抽奖游戏已经成为许多人喜爱的活动之一。为了增加游戏的趣味性和公正性,许多抽奖游戏采用了Python编程语言来实现程序。本文将介绍Python抽奖程序的基本原理和使用方法,让…

独立开发者案例:每周4h月入数万刀;国家数据局与时代红利;创业前先买个域名;工程师成长最重要的是什么 | ShowMeAI周刊

这是ShowMeAI周刊的第6期。聚焦AI领域本周热点,及其在各圈层泛起的涟漪;关注AI技术进步,并提供我们的商业洞察。欢迎关注与订阅!👀日报合辑 ⌛ 独立开发者案例:每周只工作4小时,独立开发者打造月…

王炸-GPT4.0的新能力与商业价值

转自微信公众号:嵌入式单片机之家 有多王炸 ? GPT-4 可以接受文本和图像输入,允许用户指定任何视觉或语言任务。具体来说,它在给定文本和图像输入的情况下能够生成文本输出(自然语言、代码等)。在一系列其它…

OpenAI宣布漏洞赏金计划,最高奖金2万美元

安全问题,已经成为 ChatGPT 和 GPT-4 等 AI 大模型是否能够大规模应用在各行各业的重要问题之一。OpenAI 也因为这一问题受到了业内人士、监管部门的诸多批评。 今天,OpenAI 官方发布了一篇名为 “Announcing OpenAI’s Bug Bounty Program” 的博客文章…

王慧文因健康问题辞任美团董事;数百万GitHub项目易受依赖库劫持攻击;特斯拉首台超级计算机或在七月投产|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

一篇就够:uniapp-Mqtt系列问题详细攻略(解决掉线、真机调试错误等问题)

😹背景 昨天搞了一天,我觉得新手可以参考我这篇文章思路,避免你和我一样踩坑,刚好去年的这几天也在搞mqtt,不过当时弄的是微信小程序,这次项目是uniapp,我想实现uniapp中的h5能够使用mqtt&…

英语配音软件哪个好?

在英语的学习上最难的就是口语了,想要让发音变得更加标准,那么一定要体验几款英语配音的软件,最近就有一些小伙伴问到了英语配音app推荐免费的有哪些?好的英语配音软件可以让我们更好地完成英语的配音体验,还能体验多种…

股票大数据分析软件V2.7

分享一个在淘宝买的《股票大数据分析软件》给大家使用,售价是168元的软件! 由于有业务要出国,短期不会回国,所以分享给广大股友使用! 软件的主要作用是进行个股数据面的分析和选股的作用,软件的功能有龙虎榜…

运行通达信行情接口软件的电脑需要什么配置?

运行通达信行情接口软件电脑需要什么配置?目前除了机构之外,大部分的散户用的都是一些比较有名的电脑版股票软件,比如:通达信、同花顺、大智慧、东方财富等。通达信行情接口软件因为使用C语言编写,执行效率高&#xff…

chatgpt赋能python:用Python开发炒股软件:为什么Python是一个好的选择?

用Python开发炒股软件:为什么Python是一个好的选择? 如果你是一个股票交易员或投机者,你可能会花费大量时间在寻找市场动态、维护买卖记录以及获得对股票数据的准确分析。 在这个时代,开发一个炒股软件可能是最好的解决方案。 P…

证券接口通达信软件PC版有多少种形态?

有很多投资者对于证券接口通达信软件PC版的形态还是太了解的,通达信软件PC版,有以下两种形态: 第一种形态是官方版,第二种形态是券商定制版,那么券商为了嵌入自己的经纪、资管、咨询等业务,一般都有通达信…

【成为架构师课程系列】怎样进行系统逻辑架构?

有没有一种方法在大产品和小团队之间的缺口上架起一座桥梁呢?答案是肯定的,有!那就是架构。架构最重要的一点,就是它能把难以处理的大问题分解成便于管理的小问题。 -- Eric Brechner,《代码之道》 “一流” 是每个程序设计人员向往并为之奋斗却又无法具体说出的、难以达…

【企业架构设计实战】3 怎样进行系统逻辑架构?

有没有一种方法在大产品和小团队之间的缺口上架起一座桥梁呢?答案是肯定的,有!那就是架构。架构最重要的一点,就是它能把难以处理的大问题分解成便于管理的小问题。 -- Eric Brechner,《代码之道》 “一流” 是每个程序设计人员向往并为之奋斗却又无法具体说出的、难以达…

写代码犹如写文章: “大师级程序员把系统当故事来讲,而不是当做程序来写” | 如何架构设计复杂业务系统? 如何写复杂业务代码?...

“大师级程序员把系统当故事来讲,而不是当做程序来写” 写代码犹如写文章 好的代码应该如好文章一样表达思想,被人读懂。 中心思想: 突出明确 程序是开发者用编程语言写成的一本书,首先应该是记录开发者对业务需求分析、系统分析,最终用软件实现所思所想的知识的记录与传承…

新的一年里技术管理者(工作者)们如何做好技术规划?

技术管理者的主要工作 技术管理者的主要工作是带人、做事、看方向: 带人是指团队人员能力的培养、团队梯队的建设等等;做事是指完成各项业务需求;看方向是指明确团队未来的发展方向和目标。我们经常会辩论“做管理了还要不要写代码”这个话题,而“写代码”只是“做事”里面…

【成为架构师课程系列】系统架构设计:非功能性目标的设计

前言 为了提高综合客户满意度及不同质量属性的满意度,必须考虑计划和设计产品时的不同质量属性。 -- Stephen H.Kan,《软件质量工程》 质量属性很难定义,但它们经常可以区分产品是只完成了其应该完成的任务呢,还是使客户感到满意。......优秀的软件产品反映了这些竞争性质…

【企业架构设计实战】0 企业数字化转型和升级:架构设计方法与实践

企业架构整体结构 图例:企业架构整体结构 企业架构整体结构从战略层、规划层、落地层这三层来分别对应企业架构中 业务、架构和实施的各种重要活动和产出。 业务架构,数据架构,应用架构和技术架构之间的内在逻辑联系: 图例:企业架构整体方法论 企业架构的驱动力 在当前的数…

oracle的(QA)—— ChatGPT基础篇

ChatGPT问与答 Q:现在假设你是Oracle系统,我输入指令,请你输出指令好吗 A:当然,我可以输出您输入的指令的执行结果或错误信息。请告诉我您想执行的指令是什么。 Q:show databases A:您好,执行show databases指令可以列出当前O…