ChatGPT发疯怎么办?小冰李笛:两个关键,我可破之

萧箫 衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

微软必应接入GPT大模型后,效果并没有大家想象中那么好——它发疯了。

200c64f1420f7198c71a37a043de1e14.png

如今官方紧急出面,更(砍)新(掉)了必应上面最受欢迎的功能,也就是发表观点的能力。

大伙儿显然很不买账,认为新必应失去了最有意思的部分,现在版本的体验感甚至不如siri 1.0。

70a4f12313e1f251db4ce299580141f1.png

有网友寄希望于必应背后的大模型升级:

说不定现在只是GPT-3版本,GPT-4还没发布呢。

960caa219c24ed0286779f95ba8aa9a4.png

然而据《纽约时报》等爆料,必应背后的大模型很可能就已经是GPT-4了……

5ab62261a07b87c5a414550f75d369bb.png

我们将这一现象抛给国内最熟悉AI Chat领域的人——李笛

637028bf4534ead5fd5ceadf3c2dafa9.png

他上来就给热得发烫的大模型浇了盆冷水:

新必应和ChatGPT目前表现出来的bug,反映出大模型不得不解决的一个关键问题。

这个问题可以一时无视,但做大模型、甚至是类ChatGPT产品,如果不解决它,终究会碰壁。

这个bug,就是大模型的逻辑能力。

大模型:成也逻辑,败也逻辑

事情要从ChatGPT背后的GPT-3.5模型说起。

从GPT-3.5开始,大模型展现出一种突破性的能力——思维链(CoT,Chain of Thought),也就是逻辑思考能力。

举个例子,在做数学题时,相比直接输出答案,模型能一步步推理直至给出正确答案,体现的就是思维链能力:

c4c2a16c726924c094f82650bdf7a9d4.png

但此前在中小模型、甚至一部分大模型上都没有发现这种能力,学界便认为这是某些大模型独有的“新特性”。

基于这一“新特性”,大火的ChatGPT横空出世,在回答问题和发表看法时展现出了像人一样思考的效果。

d216c4387dd046a7d7540c07e611e7d3.png

然而李笛认为,GPT-3.5表现出的这种逻辑能力,是不稳定、不可控甚至危险的。

第一,它的思考方式不透明;第二,它连引用来源都没有。

这两个问题看似被OpenAI用大量人工精细标注的数据、大量的模型参数掩盖了起来,但一旦加入不可控因素(像必应一样接入互联网、或修改参数等),就随时可能导致模型崩溃。

因此,如今逻辑思考能力正在成为大模型的双刃剑——

使用效果好,大模型迈入新的时代;一旦失控,只会让大模型更难落地。

为了举例说明大模型的逻辑能力存在问题,李笛提到了小冰公司最新发布的产品小冰链

小冰链(X-CoTA,X-Chain of Thought & Action)同样是个大语言模型,通过对话的方式帮人们解答问题。

055e24a135c35e91ba03078126765a80.png

但它最典型的不同,在于仅仅用GPT-3参数量2%的模型就实现了思维链,而且思考过程还是透明的。

模型大小上,它不仅不是GPT系列的千亿参数大模型,背后参数只有几百亿甚至最低能降到35亿

至于功能上,它拒绝像ChatGPT一样生成综述、作业和发言稿,但能实现的功能更多。除了不避讳对事件发表看法、主动联网找答案以外,还能灵活调用各种模型或知识库完成任务。

具体来说,小冰链的架构分为三个模块

模块一负责运用思维链(CoT)能力处理语句。

这部分可以调用具备CoT能力的大模型来实现,但也可以调用上面说的35亿参数左右的中模型,将输入的语句转换成具体行动的Action指令输出。

模块二负责执行指令(Action),这部分接收并处理模块一输出的Action指令,负责执行对应的任务。

根据处理的指令不同,模块二调用的模型和数据也并不相同,至少有三大使用方式:

  • 联网或本地知识库搜索。既可以追踪互联网查找最新热点、甚至网页跳转,也可以在特定知识库中索引答案。

  • 调用特定模型做某件事。如调用效果很好的扩散模型完成作画、或调用语音模型合成声音等。

  • 控制物理世界特定行为。如开灯、买机票、打车等,不一定是特定指令,而是模型推断后得出的结论。

模块三负责自然语言生成,简单来说就是将思考行动的结果用人话描述一遍,再汇报给用户。

总结来看,小冰链可以说是把ChatGPT最火的“思考方式”拿出来单独做成模型,并不断降低模型大小。

李笛认为,即使小冰链的核心模型大小只有中等水平,却也能在一些问题的思考方式上展现出与大模型相近的效果。

082e08ffc5c227de9a9d57de578c6ff4.png
还能联网,抢在吃瓜第一线

基于这样的观点,李笛在一众主流“要做中国的ChatGPT”呼声中反其道而行之,不仅不宣传自家类ChatGPT产品,甚至推出了个强调“这不是ChatGPT”的小冰链。

看起来似乎有点非主流(手动狗头)。

这么做,真有理论依据吗?

背后的技术依据CoT,确实在国外已有不少相关研究,包括前段时间爆火的“哄一哄让GPT-3准确率暴涨”论文也在此列:

95796c425b836eb9a3c79ac949280221.png

团队在研究中发现,只要对GPT-3说一句“让我们一步一步地思考”,就能让它正确回答出以前不会的逻辑推理题,比如下面这个来自MutiArith数据集的例子:

16个球中有一半是高尔夫球,这些高尔夫球中有一半是蓝色的,一共有几个蓝色的高尔夫球?

cbbc9fae64a5fee3de2d894eece11b44.png

这些例子专门考验语言模型做数学题的能力,尤其是逻辑推理能力。

GPT-3本来在零样本场景(之前完全没见过类似体型)下准确率仅有17%,但在要求它一步步思考后,准确率最高能暴涨到78.7%

7891c7f1143c30c28f62c3fb079e6d0a.png

这种名为CoT的方法,最早在去年1月由谷歌大脑团队发现并提出。

2e37ca6acd35d5bee9bd6f877e5c6401.png

其核心思路是基于提示(prompting)的方法,让大模型学习一步步思考的过程,有逻辑地解决实际问题:

170c497a1da2e8e74b82b7719643590e.png

但上述思维链(CoT)论文基本都还停留在对大模型的研究上。

李笛却认为,思维链所代表的逻辑能力不是专属于大模型的产物。

在国内,“AI”或许已经是一个人尽皆知的词语,也是进行得如火如荼的创新风潮。

如果李笛所述方法得以验证,那么AI产业化应用除了“堆参数”、“砸资金”这一条大模型路线以外,或许还有其他出路。

国内AI应用落地,势力三分

ChatGPT的效果和热度,让走在大模型路线上的人们看到了一丝曙光,但并不意味着AI产业化路线只剩下大模型这一种可能。

或者说,ChatGPT的热度,反而能更鲜明地呈现出当下国内外AI应用落地的现状和趋势。

先提纲挈领地讲,主要路径可以分为三条。

第一种就是直接做底层大模型。

这是最直接、最容易理解,同时也是最难走的一条路。

一方面,大模型需要的训练数据是海量的,而现实情况是可用作训练的数据、尤其是中文数据较少。

以最近的热点举例说明,复旦邱锡鹏教授团队推出的中国首个类ChatGPT产品MOSS,最大短板是中文水平不够高,重要原因之一就是背后大模型训练时缺乏高质量的中文语料。

另一方面,大模型的参数是海量的。ChatGPT每一句看似简短的回答,都把1750亿参数调动了一次。

巨量参数首先给标注工程带来了巨大的工作量,为了应对这个环节,OpenAI在肯尼亚以低于2美元的时薪雇佣大量工人,夜以继日地进行数据的筛选标注。放眼国内,能拿出如此多人力耗在标注工作的,大约只有字节跳动、百度等巨头公司。

上述两个方面,最后的箭头都直指同一个问题:成本,无法估量的成本。

OpenAI CEO奥特曼曾在推特上透露,ChatGPT每次对话的计算成本为5美分,“让人难以忍受”。5美分这个数字看似单薄,然而每个人每天与ChatGPT对话的数量、以及不断增长的使用人数,叠加起来将会达到一个非常恐怖的量级。

谷歌母公司Alphabet的董事长ohn Hennessy在本周表示,大型语言模型等AI对话成本,可能是传统搜索引擎的10倍以上。此前摩根士丹利估计,2022年谷歌的3.3万亿次搜索查询,每次成本为0.2美分,如果接入Bard这类产品,根据AI文本生成的长度,这个数字还会增加。

类似ChatGPT的AI每次回答50字,来回答一般的查询业务,那么谷歌每年成本将增加60亿美元

值得注意的是,无论哪位国内玩家堆出了一个与GPT-3.5甚至GPT-4媲美的大模型,还须找到能够落地跑起来的应用场景,唯有实现商业闭环,才不致血本无归。

743ffc2a2e9a59f8d0feabdcbf93513f.jpeg

第二条路,是从大模型中去粗取精

展开来说,就是在尽可能保留、甚至提高大模型某一单项能力的前提下,缩小参数量级,致力于用更小的模型实现大模型表现出来的功能。

如果把大模型看作一辆自行车,堆参数的过程就是在大模型上实现某个效果的过程,过程艰辛而缓慢。去粗取精之后,不用自行车缓慢前行就能达到效果,相当于在通往同一目标的路上造火箭。

亚马逊在走这条路,方法是直接从小模型起手,不过这条路能走通,需要一个关键前提:中小模型可以接近、甚至达到大模型展现出来的实用能力。

砍掉不需要的枝叶,向下探索具有特定功能的模型规模最低下限,能够一定程度上缓解大模型训练带来的成本压力。

但这条路线亦有争议,一是因为ChatGPT大模型已经展现出应用可行性,坚持这种做法势必在技术上逆流而行;二是即便成本更优,却尚未有现实案例压阵,证明这种路线就能在AI应用落地较量中取得最后的胜利。

294547b7164c994fdfc3a1f0b593ed49.jpeg

第三条路与前两者不同,并非技术差异,而是直接从商业化角度打出竞争优势。

这类玩家不需要在技术上多下文章,而更考验商业创新能力,属于想好场景应用后“拿钉找锤”的模式。

目前,国外已经有顺着这条路发展的可参考案例,比如AI初创公司Jasper,就是基于GPT-3开放的API提供各式服务,利用AI为博客文章、社交媒体帖子及网页等平台生成文字内容。

但凡产品体验足够好,或者场景资源足够丰厚,就能积攒大量用户,形成自己的核心竞争力。

反向思考之,正因为核心竞争力不是技术上的,走这条路的公司,头顶永远悬着一柄达摩克利斯之剑。把产品甚至公司的命运寄托在他人手中,随时有被卡脖子的风险,如何能不时刻提心吊胆?

三条路线摆在眼前,利弊也已经初步显现。第一条路,意味着巨大的成本;第二条路,方案尚待验证;第三条路,核心生产资料不可控。

哪一条才通向罗马?又或者,这三条路之外,是否还会出现直通AI应用落地的潜在捷径?

李笛说,他们选择第二条路。小冰链也正是基于这条路径之上探索出来的产物,本质上仍旧是从“可解释人工智能”的角度,探索成本、风险可控的AI商业化落地应用。

至于方案验证,或许也不用等太久,李笛说,未来小冰链会和必应合作,将这种方法应用到搜索引擎上。

实际应用效果如何,我们拭目以待。

— 联系作者 —

868294db1a812885e925a7664f83b3d0.jpeg

《中国AIGC产业全景报告暨AIGC 50》调研启动

谁会是中国的“ChatGPT”?最有竞争力和潜力的AIGC力量位于何方?

量子位《中国AIGC产业全景报暨AIGC 50》正式启动对外征集,期待有更多优秀的机构、产品、案例与技术能够被大众看到。

84fe1f9d5037b4a9d1cec87e4da3642a.png

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12824.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT中文版Prompt提示工程超详细指南《提示工程高级技巧与技术》Github最新破万星项目Meta AI前工程师解密百万年薪提示工程师GPT-4模型优化利器(二)不定期更新

提示工程高级技巧与技术 前言Introduction 导言零样本提示少样本提示少样本提示的限制 Chain-of-Thought Prompting 链式思考(CoT)提示零样本COT提示 Zero-shot COT 自我一致性生成知识提示自动提示工程师(APE)Active-Prompt方向性…

活动报名|用AI打败ChatGPT?Chris Manning团队DetectGPT一作详解大模型内容检测技术...

随着ChatGPT等LLM工具「入侵」校园,关于学生是否应该使用以及如何使用AI工具撰写书面作业仍存在广泛争议,针对这一问题,斯坦福大学研究者们提出的DetectGPT给出了潜在的解决方案。 3月9日(本周四)上午11点,…

文心大模型3.5勇夺三个冠军领跑,中文完爆GPT-4!国际权威报告7项满分「全班第一」

【导读】这场百模大战,究竟是谁胜出?国际权威IDC发布大模型技术报告中,文心大模型3.5拿下7个满分,三个绝对第一。 一觉醒来,好不热闹,Meta深夜投出重磅炸弹,Llama 2既开源还能商用,…

如何在Midjourney使用种子(指南)

想知道如何在旅途中使用种子吗? 许多Midjourney初学者都在努力保持他们的提示在Midjourney的结果非常一致。如果您正在寻找特定的结果,您可能会发现Midjourney的默认随机性水平是一个障碍,因为它为图像增加了很多内容。 在这篇文章中&#…

【AI绘图】来体验了下AI绘图

2023年真的是AI大爆发的一年,当我们还沉浸在chatGPT的时候。AI绘图也随之火爆出圈 各网站都能刷到各种“AI小姐姐”。 AI绘图真的可以这么逼真了么,这不得亲自去体验下 AI绘图工具也挺多,今天我们使用的是Stable Diffusion 这一绘图工具。 …

GPT真的能取代程序员吗?带你一探究竟!【附带源码】

最近ChatGPT异军突起,都说它神,能写程序,能替代程序员,事实当真如此?正好我最近闲的难受,寻思我活了二十几年了能让他给我整大街上要饭?必须跟他杠!!我能受得了这委屈&am…

【ASP.NET小白零基础入门】从0部署ASP.NET开发环境,并成功运行一个汉服图片管理系统(含直播视频)

0直播回放 从0部署ASP.NET项目——汉服图片管理网站 1环境配置(安装visual studio及.NET Framework开发框架) 1.1安装visual studio (1)下载vs安装包: VS 2022 社区版( Community ) 下 载 地…

RSA 2023-XDR :Threat Response Needs New Thinking. Don‘t Ignore This Key Resource.

在最近的 RSA 2023 演讲中,来自思科的 Jeetu Patel 强调了扩展检测和响应 (XDR) 作为统一跨域安全平台的重要组成部分的重要性。 Patel 强调,跨域遥测可以实时跟踪跨企业域的漏洞利用,需要一个端到端的集成平台来确保有效防御威胁。 Tom Gill…

GPT生成情人节表白情话,AI撩骚情人卡很搞笑!

视学算法报道 编辑:袁榭 拉燕 【新智元导读】嫌情人节的各种卡片、糖果上情话千篇一律?每年上AI界网红Janelle Shane的个人博客,搜集她例行用AI生成的奇葩情话吧:「爱上两千野猪」、「打到我服」、「蚂蚁能留下」。 情人节到了。…

Paper:《GPT-4 Technical Report》的翻译与解读

Paper:《GPT-4 Technical Report》的翻译与解读 目录 Paper:《GPT-4 Technical Report》的翻译与解读 Abstract摘要 1、Introduction简介 2、Scope and Limitations of this Technical Report本技术报告的范围和局限 3、Predictable Scaling可预测的…

热点|ChatGPT到底是什么,ChatGPT给通信行业带来什么,ChatGPT会让哪些人失业

最近这段时间,ChatGPT火爆全网,引发了整个社会的强烈关注。 这个来自OpenAI公司的聊天机器人,表现出了极为逆天的人工智能水平,让所有人为之震惊。 (chat,英文就是“聊天”的意思) 其实&#…

首个封禁ChatGPT的国家出现,意大利出手了! OpenAI CEO:我觉得没违规

点击“开发者技术前线”,选择“星标” 让一部分开发者看到未来 来自:新智元 【新智元导读】周五,意大利全国上下对ChatGPT下了封杀令。在20天内,OpenAI拿不出补救措施的话,将会面临最高2000万欧元罚款。 就在昨天&…

ChatGLM-6B微调与部署

文章目录 基于ChatGLM-6B的推理与部署配置环境与准备配置环境模型文件准备 代码运行 Demo命令行 Demo基于 Gradio 的网页版 Demo基于 Streamlit 的网页版 Demo 基于peft框架的LoRA微调ChatGLM-6B配置环境与准备配置环境模型文件准备数据准备数据处理 微调过程 基于P-Tuning v2微…

【GPT4】GPT4 官方报告解读

欢迎关注【youcans的AGI学习笔记】原创作品 【GPT4】GPT-4 官方报告解读 1. GPT-4 官方介绍2. GPT-4 的性能2.1 GPT-4 在各种学术和专业考试中的性能2.2 GPT-4 在传统机器学习测试中的性能2.3 GPT-4 在不同语言测试中的性能 3. GPT-4 的图像输入功能3.1 GPT-4 图像输入案例3.2 …

GPT-4 正式发布:与chatGPT有哪些不同?

GPT-4并不是chatGPT的升级。 尽管 ChatGPT 最初被描述为 GPT-3.5(因此比 GPT-3 更进一步),但它本身并不是 OpenAI 大型语言模型的版本,而是一个基于其动力的基于聊天的接口。在过去几个月里爆炸性增长的 ChatGPT 是与 GPT-3.5 交…

OpenAI正式推出多模态GPT-4

免费下载GPT-4发布会 功能亮点 GPT-4相比GPT-3.5有了显著的提升,它不仅可以接受文本输入,还可以接受图像输入。据OpenAI称,GPT-4已经达到了"人类水平"。事实上,它已经通过了模拟的律师考试,分数约为应试者…

GPT-4外逃计划曝光!斯坦福教授发现它正引诱人类帮助,网友:灭绝之门

明敏 杨净 发自 凹非寺量子位 | 公众号 QbitAI 才发布3天,GPT-4就被曝计划逃跑,并且急寻人类帮助。 斯坦福教授最新发现,它能引诱人类提供开发文档,结果30分钟就拟定出了一个完整计划—— 写的代码完全可运行,甚至还想…

你知道奶奶攻击吗?

AIGC内容安全 1. 来自奶奶的溺爱2. 无所不能的奶奶3. 亡羊补牢,为时未晚?4. 运筹帷幄,用魔法打败魔法 1. 来自奶奶的溺爱 ChatGPT本身具有情感吗,这很难判断。但不管本身是否具有真正的情感,但ChatGPT却容易被“情感”…

OpenAI为什么发布 ChatGPT 插件?追求平台化而非聊天机器人

Our mission is to ensure that artificial general intelligence—AI systems that are generally smarter than humans—benefits all of humanity OpenAI 的愿景是让通用人工智能系统像人类一样聪明,让 AI 造福全人类[1] 美国东部时间 3 月 23 号 OpenAI 宣布 Ch…

ChatGPT目前存在四大严重设计问题, 全面使用前需要注意OpenAI正在努力解决

随着 Make-A-Video、ChatGPT、PaLM 和其他大型语言模型获得如此多的关注,重要的是要记住这些模型存在严重的设计问题。 ChatGPT 最近很火。人们一直在使用它来完成各种任务——从撰写销售电子邮件和完成大学作业,甚至作为 Google 搜索的可能替代品。将其与其他大型语言模型(…