挖掘GPT的隐藏实力就靠它了

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

这个GitHub新项目,能让ChatGPT完成复杂任务,GPT3.5和GPT-4都支持。

它通过将问题拆解,并调用外部资源,提高了GPT的工作能力。

在它的调教下,GPT-4回答的准确率从68%提高到了85%。

f9cc30f52db3818f935baac683e19ee8.gif

这个项目名叫SmartGPT,这个名字很直白地告诉了我们它的作用。

无论是直观感受还是量化数据,GPT在它的加持之下回答正确率都有提高。

我们不妨看看几个经典的问题。

晾干5件衣服需要5个小时,那么晾30件需要多长时间呢?

这是一个来自OpenAI Playground的经典问题。

只见GPT一顿操作猛如虎,又是推理又是列方程……

然而最后给出的答案是30个小时。

1208113b8a7b1d5fb375dacf0c84504c.png

而经过SmartGPT调教之后,不仅得到了正确答案,还指出了此前的思路为什么会出错。

d6ad52f95b34add6ea972e2f201810e8.png

再来举个栗子64896ff8d127b7e82d702496f02e4421.png,同样是来自于OpenAI Playground的问题。

假设有6升和12升的罐子各一个,如何量取6升水?

GPT的答案嘛……麻烦不说,能不能解释下第五步的2升是怎么剩下的?

0d3c8993e11d6a50c702f02d320b2456.png

经过调教之后嘛……虽然不理解为什么不直接用6升的,但也有很大进步了。

59615ad1272ea5afabb8e51da92fbe02.png

我们也用倒拔垂杨柳的问题进行了测试,提供了诸葛亮、孙悟空和林黛玉三个选项。

e9071b8a0795839e9cb690cfc8b7e9ff.png

第一轮,GPT-4给出的答案是……孙悟空。

e89475fa0e4330f73497167ddd82f99e.png

经过调教之后,GPT-4终于发现了三个选项都是错误的。

同时还指出了孙悟空虽然没有倒拔垂杨柳但是有相似的情节。

(《西游记》第二十五回中,孙悟空在五庄观因愤怒将人参果树拔倒)

2c27923e24440d9fab2c1000eeb0f3fb.png

需要说明的是,由于没有GPT-4的API,测试是按照开发者介绍的方法手工完成的。

当然了,个例并不能说明它的表现,还是要用数据集测试一下。

开发者使用了MMLU数据集分别对调教前后的GPT-4进行了测试。

结果显示,未经调教的版本只答对了68%,而调教后的版本答对了85%。

顺便提一句,真人专家在测试中的平均成绩是89.8%。

b5d5bec8318788dd8eee670f4999ca3f.png

数学方面,同样使用MMLU数据集进行测试,开发者从中选择了15个大学难度的数学问题。

虽然准确率只有60%,但也是及格了,而且比原版GPT的40%已经好了太多。

化整为零,逐步解决

开发者将SmartGPT中的环节形象地比作了职场中的角色:

“甲方”:SmartGPT用户。
“经理”:和“甲方”对接,把任务拆分成高级子任务并逐一汇报给“老板”。
“老板”:制定计划,将高级子任务再次拆分,并分发给“员工”。
“员工”:接收任务,编写伪代码,交给“小黄人”执行。
“小黄人”:将伪代码优化成LUA脚本并运行。

作为“甲方”的用户,需要做的只是像使用普通GPT一样输入自己的问题,而不必给出额外指令

SmartGPT会帮助用户把问题拆分,然后按照步骤提交给GPT。

此前有人发现,在输入给GPT的指令中加入“let’s think step by step”可以提高回复的准确率。

同时,GPT-4具有回溯能力,能够发现并指出自己此前回答中的错误。

以上两个特性为SmartGPT的工作提供了重要支撑。

1dd4cf1d844c44cdf37f9fe3e9c2ecd3.png

 SmartGPT工作流程图

在用户输入完指令后,SmartGPT对其进行处理拆分,包括添加“let’s think step by step”类似的表述。

然后它会将处理好的指令传至GPT的API,并重复多次获取不同的答案。

接着,SmartGPT会向API发送要求其回溯答案并选择最优解的指令。

最后,将GPT自己选择的最佳答案展示给用户。

上述步骤受到了三篇学术论文的启发(图中白框)。

这三篇论文的内容分别关于“链式提示方式”、“动态记忆及让LLM自我回溯”和“用对话提高LLM完成度”。

和其他工具相比,SmartGPT好在哪

AutoGPT等工具同样可以用来优化GPT,SmartGPT比它们好在哪里呢?

由于其工作原理是将任务进行拆分,会形成逻辑链条,因此SmartGPT拥有更强大的推理能力。

实用性方面,SmartGPT由独立的子模块组成,使用者可以对它们进行任意排列、组合和删改。

此外,无论对于用户还是开发人员,SmartGPT的配置过程都更为简单。

不过开发者也坦言,这个项目刚推出不久,因此稳定性有待考证,在内存优化方面还有所欠缺,消耗的环境资源也更多。

在项目推出之后,有网友表示我们低估了GPT的潜力,甚至包括OpenAI自己。

6e0242dcc52e298b673848726acb77cc.png

那么,你期待GPT未来的表现吗?

SmartGPT目前暂无开箱可用版本,需要自行在Linux环境搭建,动手能力强的读者可根据下面的项目页面中的指示体验:

项目地址:https://github.com/Cormanz/smartgpt

项目涉及到的论文:
[1]. https://arxiv.org/abs/2305.02897
[2]. https://arxiv.org/abs/2303.11366
[3]. https://arxiv.org/abs/2303.17071

参考链接:
[1]. https://www.youtube.com/watch?v=wVzuvf9D9BU
[2]. https://www.reddit.com/r/singularity/comments/13axo1r/gpt_4_is_smarter_than_you_think_introducing/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/72354.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

文心一言和讯飞星火全面对比测试:(三)常识问题

前文回顾: 在(一)语言理解能力测试中,我们主要测试了两个大语言模型对复杂语义的理解、对文章情绪的识别、对文章进行摘要总结、对文章进行要素提取,测试结果表明:在语言理解能力上:除了有些问…

文心一言:垂直深度体验

3月19号,我发布了百度文心一言和ChatGPT的对比测试。 紧接着,3月20号,百度文心一言就推出了v1.0.1新版本。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kpLCnihL-1679462810728)(http://oss-qiniu.kujiajia.x…

HiPQTools软件打开提示错误问题解决办法

一、打开软件出现failed to load plugin xxx.dll 二、提示这些,说明此软件依赖的运行环境不对,或者缺失。一般是MCR运行环境未安装,或者对应的安装版本不正确,请选择正确的版本。 三、MCR下载地址 https://ww2.mathworks.cn/prod…

chatgpt赋能python:Python聊天机器人程序:把智能带入聊天

Python聊天机器人程序:把智能带入聊天 在数字化时代,机器人指引和客户服务变得越来越流行。为了快速而有效地满足这种需求,聊天机器人被广泛研究与开发。Python是在这方面一个非常受欢迎的编程语言,能够快速地构建聊天机器人。在…

chatgpt赋能python:用Python编写聊天机器人:打造AI智能助手

用Python编写聊天机器人:打造AI智能助手 简介 聊天机器人在现代生活中越来越受欢迎。一个好的聊天机器人能够回答我们的问题、执行任务、提供娱乐,甚至成为我们的朋友。Python是一种强大的编程语言,其模块化和易学的特性使其成为开发聊天机…

chatgpt赋能Python-python_kriging

Python Kriging- 基本介绍 在地理空间分析中,克里金(Kriging) 是一种用于预测地理空间变量的一种统计学方法,它使用空间自相关来进行估计。 Python kriging 是一种使用Python语言实现克里金算法的工具,它允许使用 Python 对各种克里金模型进…

chatgpt赋能Python-python_pygame_3d

Python Pygame 3D:开启游戏开发新时代 介绍 随着科技的发展,游戏行业变得越来越重要,而Python Pygame 3D游戏编程语言也在这个领域中扮演着非常重要的角色。Pygame是Python上的一个游戏开发库,旨在让程序员能够更加轻松地创建各…

Android设备活跃排行,4月国内安卓手机最新排名出炉!雷军笑了

今日,阿里巴巴旗下的友盟统计公布了国内Android设备的最新排名,包括单款机型以及品牌占有率。以下排名,按Android设备当月活跃用户统计。 单款机型方面,前十名分别为: 1、小米手机3(2.5%); 2、三星Galaxy N…

三星强势反弹,占据全球热销手机前十半数位置

市调机构Canalys公布的数据显示,今年三季度全球热销手机前十名中有五款来自三星,证明三星在智能手机市场强势反弹。 Canalys公布的这份数据显示,今年三季度全球热销手机前十名当中,三星分别占据了第三名至第五名,以及第…

也评评2013年全球十大软件厂商排名

Gartner:2013年全球十大软件厂商排名 根据Gartner公司3月31发布的数据,2013年全球软件市场为4073亿美元,比2012年的3885亿美元增长4.8%。软件收入排名前十的厂商分别为:微软、甲骨文、IBM、SAP、赛门铁克、EMC、惠普、VMware、CA和…

区块城市整合天涯社区,一厢情愿恐会无功而返

最近我朋友圈刷屏的新闻,除了ChatGPT和AI大爆发,就是天涯社区有了接盘侠,有的人未必熟悉BlockCity区块城市,却都应该知道美团的创始人王兴,没错,区块城市据传就是王兴布局元宇宙的新项目,虽然去…

澜舟科技创始人兼CEO周明受邀出席“基础科学与人工智能论坛”

由首届国际基础科学大会主席丘成桐先生发起的“基础科学与人工智能论坛”于7月23日下午在国家科技传播中心举办。澜舟科技创始人兼CEO、中国计算机学会CCF 副理事长、创新工场首席科学家周明出席,同时论坛也邀请到美国国家工程院外籍院士沈向洋、德国国家工程科学院…

李远志为清华姚班蝉联斯隆奖!北大唐云清和中科大田小川同期加冕

Pine 发自 凹非寺量子位 | 公众号 QbitAI 继鬲融马腾宇陈丹琦后,又有一位清华姚班校友荣获斯隆研究奖: 他就是李远志! 斯隆研究奖,素来有“诺奖风向标”的称号,获得这个奖项的研究人员,将得到为期两年的750…

tp6生成带图二维码(大解析)

第一步&#xff1a;在项目的根目录下安装二维码安装包&#xff0c;像我截图哪个即可。比如 phpstudy。就是在www/shop下即可就能安装&#xff0c;不然不能的哦 composer require dh2y/think-qrcode 二维码插件composer语句 控制器&#xff1a; <?php declare (strict_type…

TP5实现二维码的生成

二维码是使用非常广泛&#xff0c;本文用TP5实现二维码和logo的生成与设置及路径保存等 下载qr_code插件 下载 composer利用 composer 下载 qr_code 插件 composer require endroid/qr-code 我用的编译神器是PhpStorm &#xff0c;所以在下面的 Terminal 中可以输入以上命令…

tki-qrcode插件二维码的生成

二维码的生成步骤 1、全局安装tki-qrcode插件2、查看下载插件后的版本信息3、在页面中引入tki-qrcode4、生成二维码整体代码5、效果展示 1、全局安装tki-qrcode插件 npm i tki-qrcode2、查看下载插件后的版本信息 3、在页面中引入tki-qrcode import tkiQrcode from "tki-…

ColossalAI-Chat训练手册(RLHF)

目录 1、什么的RLHF流程&#xff1f; 2、环境安装 3、训练&运行 3.1、模型下载 3.1、SFT(supervised fine-tuning) 3.2、训练奖励模型&#xff08;Training reward model&#xff09; 3.3、RL&#xff08;Training model using prompts with RL&#xff09; 3.4、使…

QA-对话系统-问答系统-聊天机器人-chatbot相关资源

1 简介 目前正在研究智能问答系统&#xff0c;在学习的过程中读了一些文章&#xff0c;实践了几个开源项目&#xff0c;在这里记录下自己觉得比较的资源 2 博客 深度学习对话系统理论篇--数据集和评价指标介绍 文末介绍了一些数据集&#xff0c;也可以关注下博主&#xff0c;他…

揭秘百度闲聊机器人技术原理及应用,参与训练营实战赢奖品

不知道穿梭在各个空间的你是否注意&#xff0c;日常生活中的我们已经逐渐成为很多机器人服务的对象。随着人工智能与各行业的融合&#xff0c;AI 技术在更多应用场景成功落地&#xff0c;越来越多搭载着智能对话能力的产品在帮助我们实现更高效的生活和工作需求。而在不断进步的…

三十八、原来聊天机器人是这么做出来的

tensorflow自带的seq2seq模型基于one-hot的词嵌入&#xff0c;每个词用一个数字代替不足以表示词与词之间的关系&#xff0c;word2vec通过多维向量来做词嵌入&#xff0c;能够表示出词之间的关系&#xff0c;比如&#xff1a;男-女≈王子-公主。基于seq2seq的思想&#xff0c;利…