大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿?CMU副教授测评了7个类ChatGPT大模型...

d8492e021efa30cf5bf351885b9164dd.jpeg

来源 :机器之心

大语言模型「七雄争霸」,看谁拔得了头筹。

大型语言模型(LLM)正在风靡全球,它们的一个重要应用就是聊天,并在问答、客服和其他许多方面都有应用。然而,聊天机器人是出了名的难以评估。究竟这些模型在什么情况下最好用,我们目前尚不明晰。因此,LLM 的测评非常重要。

此前一位名叫 Marco Tulio Ribeiro 的 Medium 博主在一些复杂任务上对 Vicuna-13B、MPT-7b-Chat 和 ChatGPT 3.5 进行了测试。结果表明,Vicuna 对于许多任务来说是 ChatGPT (3.5) 的可行替代品,而 MPT 还没有准备好在现实世界中使用。

近日,CMU 副教授 Graham Neubig 对已有七种聊天机器人进行了详细测评,并制作了一个实现自动比较的开源工具,最后形成了一份测评报告。

a252a7ed78ab0085b918045b2c248b4a.jpeg

在这份报告中,测评者展示了一些聊天机器人的初步评估、比较结果,目的是让人们更容易地了解最近出现的所有开源模型以及基于 API 的模型现状。

具体来说,测评者创建了一个新的开源工具包 ——Zeno Build,用于评估 LLM。该工具包结合了:(1)通过 Hugging Face 或在线 API 使用开源 LLM 的统一界面;(2)使用 Zeno 浏览和分析结果的在线界面,以及(3)使用 Critique 对文本进行 SOTA 评估的指标。

2dda08ee0dc9fe8cc8fd5fa45a2e27c4.jpeg

具体结果参加:https://zeno-ml-chatbot-report.hf.space/

以下是评估结果汇总:

  • 测评者评估了 7 种语言模型:GPT-2、LLaMa、Alpaca、Vicuna、MPT-Chat、Cohere Command 和 ChatGPT (gpt-3.5-turbo);

  • 这些模型是根据它们在客户服务数据集上创建类似人类的响应的能力进行评估的;

  • ChatGPT 拔得头筹,但开源模型 Vicuna 也很有竞争力;

  • 测评者发现,使用具有较长上下文窗口的 chat-tuned 模型非常重要;

  • 在对话的前几个回合,prompt 工程对于提升模型对话的表现非常有用,但在有更多上下文的后期回合中,效果就不那么明显了;

  • 即使是像 ChatGPT 这样强大的模型也存在很多明显的问题,比如出现幻觉、未能探求更多信息、给出重复内容等。

以下是评测的详细信息。

设置

模型概况

测评者使用的是 DSTC11 客户服务数据集。DSTC11 是一个对话系统技术挑战赛的数据集,旨在支持更具信息性和吸引力的任务导向对话,通过利用评论帖子中的主观知识来实现。

DSTC11 数据集包含多个子任务,如多轮对话、多领域对话等等。例如,其中一个子任务是基于电影评论的多轮对话,其中用户和系统之间的对话旨在帮助用户找到适合他们口味的电影。

他们测试了以下 7 个模型

  • GPT-2:2019 年的一个经典语言模型。测评者把它作为一个基线加入,看看最近语言建模方面的进展对建立更好的聊天模型有多大影响。

  • LLaMa:一个最初由 Meta AI 训练的语言模型,使用的是直接的语言建模目标。测试中使用的是 7B 版本的模型,以下开源模型采用的也是同等规模版本;

  • Alpaca:一个基于 LLaMa 的模型,但进行了指令调优;

  • Vicuna:一个基于 LLaMa 的模型,为基于聊天机器人的应用做了进一步的明确调整;

  • MPT-Chat:一个以类似于 Vicuna 的方式从头开始训练的模型,它有一个更商业化的许可;

  • Cohere Command:Cohere 推出的一个基于 API 的模型,进行了指令遵循方面的微调;

  • ChatGPT(gpt-3.5-turbo):标准的基于 API 的聊天模型,由 OpenAI 研发。

对于所有的模型,测评者使用了默认的参数设置。其中包括温度(temperature)为 0.3,上下文窗口(context window)为 4 个先前的对话轮次,以及一个标准的 prompt:「You are a chatbot tasked with making small-talk with people」。

评价指标

测评者根据这些模型的输出与人类客服反应的相似程度来评估这些模型。这是用 Critique 工具箱提供的指标完成的:

  • chrf:测量字符串的重叠度;

  • BERTScore:衡量两个语篇之间嵌入的重叠程度;

  • UniEval Coherence:预测输出与前一个聊天回合的连贯性如何。

他们还测量了长度比,用输出的长度除以黄金标准的人类回复的长度,以此衡量聊天机器人是否啰嗦。

更进一步的分析

为了更深入地挖掘结果,测评者使用了 Zeno 的分析界面,特别是使用了它的报告生成器,根据对话中的位置(开始、早期、中期和后期)和人类回应的黄金标准长度(短、中、长)对例子进行细分,使用其探索界面来查看自动评分不佳的例子,并更好地了解每个模型的失败之处。

结果

模型的总体表现如何?

根据所有这些指标,gpt-3.5-turbo 是明显的赢家;Vicuna 是开源的赢家;GPT-2 和 LLaMa 不是很好,表明了直接在聊天中训练的重要性。

b42dbe4cdf10fb4f8ef5746769989889.jpeg

这些排名也与 lmsys chat arena 的排名大致相符,lmsys chat arena 使用人类 A/B 测试来比较模型,但 Zeno Build 的结果是在没有任何人类评分的情况下获得的。

关于输出长度,gpt3.5-turbo 比其他模型的输出要冗长得多,而且看起来,在聊天方向进行调优的模型一般都会给出冗长的输出。

c05e69d86c7e96bd675518a12c5eefb4.jpeg

黄金标准响应长度的准确性

接下来,测评者使用 Zeno report UI 进行深入挖掘。首先,他们按照人类回复的长度将准确性分别进行了测量。他们将回复分为短(≤35 个字符)、中等(36-70 个字符)和长(≥71 个字符)三个类别,并对它们的准确性进行了单独的评估。

gpt-3.5-turbo 和 Vicuna 即使在更长的对话轮次中也能保持准确性,而其他模型的准确性则有所下降。

23a1bb5f856d661e9c152780493498b9.jpeg

接下来的问题是上下文窗口大小有多重要?测评者用 Vicuna 进行了实验,上下文窗口的范围是 1-4 个之前的语篇。当他们增加上下文窗口时,模型性能上升,表明更大的上下文窗口很重要。

9cc8938ffc3da096b9ab50e7e0550e88.jpeg

测评结果显示,较长的上下文在对话的中间和后期尤其重要,因为这些位置的回复没有那么多的模板,更多的是依赖于之前所说的内容。

db3e641fd8d519db78f9e602e1555896.jpeg

当试图生成黄金标准较短的输出时(可能是因为有更多的歧义),更多的上下文尤为重要。

7589bae88247733284209578ce880ae1.jpeg

prompt 有多重要?

测评者尝试了 5 个不同的 prompt,其中 4 个是通用的,另外一个是专门为保险领域的客服聊天任务量身定制的:

  • 标准的:「你是一个聊天机器人,负责与人闲聊。」

  • 友好的:「你是一个善良、友好的聊天机器人,你的任务是用一种让人感到愉快的方式与人闲聊。」

  • 有礼貌的:「你是一个非常有礼貌的聊天机器人,说话非常正式,尽量避免在回答中犯任何错误。」

  • 愤世嫉俗的:「你是一个愤世嫉俗的聊天机器人,对世界有着非常黑暗的看法,通常喜欢指出任何可能存在的问题。」

  • 保险行业专用的:「你是 Rivertown 保险服务台的工作人员,主要帮助解决保险索赔问题。」

总的来说,利用这些 prompt,测评者并没有测出不同 prompt 导致的显著差异,但「愤世嫉俗」的聊天机器人稍微差一点,而量身定制的「保险」聊天机器人总体上稍微好一点。

afca803c94d964fb3f836c80104e0825.jpeg

在对话的第一个回合中,不同 prompt 带来的差异尤其明显,这表明当没有什么其他上下文可以利用时,prompt 是最重要的。

c843730bd8f94a4bf835d62d96aaef03.jpeg

发现的错误以及可能的缓解措施

最后,测评者使用 Zeno 的 exploration UI ,试图通过 gpt-3.5-turbo 找到可能的错误。具体来说,他们查看了所有 chrf 较低(<0.1)的例子,并手动查看了这些例子以发现趋势。

0f893c9feb28eaaacf9b9a9ff91ff766.jpeg

Probe 的失败

有时模型无法在实际需要时 Probe(探测)更多信息,例如模型在处理号码这一事件中尚未完善(电话号码必须是 11 位数字,模型给出的数字长度与答案不匹配)。这时可以通过修改 prompt 来缓解,以提醒模型某些信息所需的长度。

cd35592e96ae318fbbf85be382c6dd87.jpeg

内容重复

有时,同样的内容会重复多次,比如聊天机器人在这里说了两次「谢谢」。

199fd6efa37a55bbb2320dad16264559.jpeg

回答合理,但与人类方式不同

有时候,这种响应是合理的,只是与人类的反应不同。

7a57e3f7604f15a37105614ab14ca4da.jpeg

以上就是评测结果。最后,测评者希望这份报告对研究者有所帮助!如果你继续想尝试其他模型、数据集、prompt 或其他超参数设置,可以跳转到 zeno-build 存储库上的聊天机器人示例进行尝试。 

原文地址:https://github.com/zeno-ml/zeno-build/tree/main/tasks/chatbot/report

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

7768cdcb96eb5eb3b92dd9b0895916f9.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16172.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用文心一言把欧小鹏里常问的问题问了一遍

个人主页 | OpenI注册地址 | Github主页 欧小鹏, 针对LLM的社群机器人. 行外人觉得特简单, 一般化; 行内人觉得有特殊价值, 还可以. 要不要给欧小鹏换个头像&#xff1a; 这是换, 还是不换啊? 一直关注, 十分期待 昨天, 对于曾经在百度开源社区有着不深刻的"从业经验&…

多模态推荐系统最新进展总结

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年1月份热门报告合集 ChatGPT团队背景研究报告 ChatGPT的发展历程、原理、技术架构及未来方向 ChatGPT使用总结&#xff1a;150个ChatGPT提示此模板 ChatGPT数据集之谜 …

LLM总结(持续更新中)

最新的参见LLM-Summary 引言 当前LLM模型火出天际&#xff0c;但是做事还是需要脚踏实地。此文只是日常学习LLM&#xff0c;顺手整理所得。本篇博文更多侧重对话、问答类LLM上&#xff0c;其他方向&#xff08;代码生成&#xff09;这里暂不涉及&#xff0c;可以去看综述来了…

清华发布首个最全大模型安全评测系统,ChatGPT登榜首!

夕小瑶科技说 原创作者 | 天于刀刀 Python当前大型语言模型的火爆程度我们不用再进行赘述了&#xff0c;伴随着百度文心一言打响国内商业大模型第一枪&#xff0c;华为盘古&#xff0c;阿里通义千问&#xff0c;智谱ChatGLM,科大讯飞星火等国内公司纷纷开始布局。 另一方面由于…

360+ChatGLM联手研发中国版“微软+OpenAI”

文章目录 人工智能福利文章前言360与智谱AI强强联合什么是智谱AI360智脑360GLM与360GPT大模型战略布局写在最后 ✍创作者&#xff1a;全栈弄潮儿 &#x1f3e1; 个人主页&#xff1a; 全栈弄潮儿的个人主页 &#x1f3d9;️ 个人社区&#xff0c;欢迎你的加入&#xff1a;全栈弄…

45岁当打之年再创业,剑指中国版ChatGPT,这位美团联合创始人能否圆梦?

文 BFT机器人 “即便只有一个人&#xff0c;我也要出发。” 这是45岁的前美团联合创始人王慧文再次冲上创业沙场的“征战”宣言&#xff0c;这一次他的梦想是“组队拥抱新时代&#xff0c;打造中国OpenAI”。 01 当打之年&#xff0c; AI新梦再起航 “我的人工智能宣言&…

一支不足百人的团队创造了 ChatGPT :90 后挑大梁,应届生 11 人,华人抢眼

让全网沸腾的 ChatGPT&#xff0c;其背后团队不足百人。ChatGPT 发布以来&#xff0c;在短短 2 个月时间月活破亿&#xff0c;成为历史上用户增长最快的消费应用。有分析机构感叹&#xff1a;“在互联网领域发展 20 年来&#xff0c;我们想不出有哪个消费者互联网应用比它上升速…

ChatGLM2-6B本地部署

ChatGLM2-6B本地部署 ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本&#xff0c;在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上&#xff0c;ChatGLM2-6B 引入了如下新特性&#xff1a; 更强大的性能&#xff1a;基于 ChatGLM 初代模型的开…

ChatGLM-6B 本地部署指南!

Datawhale干货 作者&#xff1a;宋志学&#xff0c;Datawhale成员 注意事项-写在最前 显卡需要至少6GB的显存使用GPU部署模型需要自行安装torch和与自己显卡匹配的CUDA、cudnn 下载ChatGLM-6B 在GitHub上下载chatglm-6b的源码&#xff0c;地址如下 https://github.com/THUDM/C…

如何在本地部署运行ChatGLM-6B

在本篇技术博客中&#xff0c;将展示如何在本地获取运行代码和模型&#xff0c;并配置环境以及 Web GUI&#xff0c;最后通过 Gradio 的网页版 Demo 进行聊天。 官方介绍 ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型&#xff0c;基于 General Language Model (GLM)…

统计行业板块内涨停板数量,跟踪热点板块!股票量化分析工具QTYX-V2.6.0

前言‍‍ QTYX系统结构如下所示&#xff1a; 功能概述 目前A股市场的股票每天是有限制最大涨幅的&#xff0c;也就是涨停的概念。比如主板个股最大涨幅是10%&#xff0c;创业板个股最大涨幅是20%等。 对于个股而言并不是随随便便就能被推到涨停板的&#xff0c;它的背后是主力资…

股票数据分析

股票数据分析 前面我们介绍了Spark 和 Spark SQL&#xff0c;今天我们就使用 Spark SQL来分析一下我们的数据&#xff0c;今天我们主要分析一下股票数据 数据准备 这里郑重申明&#xff0c;我们的全部数据来自tushare, tushare 是一个免费提供各类金融数据 , 助力智能投资与…

华为版 ChatGPT“盘古 Chat”2023年7月7日正式发布

据某些媒体称&#xff0c;华为公司将发布一款直接对标 ChatGPT 的多模态千亿级大模型产品&#xff0c;名为“盘古 Chat”。 据介绍&#xff0c;盘古大模型于 2020 年 11 月在华为云内部立项成功。这款“盘古 Chat ”预计将于今年 7 月 7 日举行的华为云开发者大会 (HDC.Cloud …

苹果上演“无间道”?故意泄露假消息“钓鱼”,成功抓获 iOS 17 内部爆料者...

整理 | 郑丽媛 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 在今年 3 月底&#xff0c;苹果预告了 WWDC23 大会的时间&#xff1a;北京时间 6 月 6 日至 10 日。据外媒预测&#xff0c;iOS 17、新款 MacBook Air 和 M3 芯片都有可能在本次大会中亮相。 然而对于…

被 Google 裁掉的 Golden 12K:开源开发者成重灾区,61 岁再求职!

整理 | 屠敏 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 2022 被视为全球经济的低谷期&#xff0c;如今 2023 新一年的到来&#xff0c;被众人赋予了很高的期望。 然而&#xff0c;新年伊始&#xff0c;全球科技巨头之一的 Google 最新宣布大规模裁员的消息&a…

简单聊聊工程质量中研发需要关心的点

一、背景 作为程序猿&#xff0c;工程质量是我们逃不开的一个话题&#xff0c;工程质量高带来的好处多多&#xff0c;我在写这篇文章的时候问了一下CHATGPT&#xff0c;就当娱乐一下&#xff0c;以下是ChatGPT的回答&#xff1a; 1、提高产品或服务的可靠性和稳定性。高质量的系…

ChatGPT不会很快接管人类工作,AI也不会免费打工

ChatGPT 等大模型的相继发布&#xff0c;让很多人倍感压力&#xff0c;害怕 AI 会很快接管他们的工作。对此&#xff0c;OpenAI 也曾发表过一项研究&#xff0c;表明 ChatGPT 的影响涵盖所有收入阶层&#xff0c;且高收入工作可能面临更大的风险。事实到底如何呢&#xff1f; …

AI辅助编程实践-Copilot

引言 在ChatGPT的浪潮下&#xff0c;当前大模型普遍引入了编程问题平台以及大量代码数据来训练逻辑和问答能力&#xff0c;同时大模型本身具备的自然语言理解和处理能力&#xff0c;使得我们可以与大模型进行代码编程上的交流与咨询&#xff0c;大大减少我们在一些琐碎事务上的…

chatgpt赋能python:Python动态调用方法:优雅的编程解决方案

Python动态调用方法&#xff1a;优雅的编程解决方案 Python语言的特性之一是其动态性。这意味着Python在运行时不仅能够创建新的对象和修改现有对象的属性&#xff0c;还可以动态地调用方法。这种能力在编写大规模的Python应用程序时格外有用。本文将深入探讨Python动态调用方…

聚观早报 | ChatGPT登顶美区iOS免费榜;库克不满苹果首款MR设备

今日要闻&#xff1a;ChatGPT登顶美区iOS免费榜&#xff1b;库克不满苹果首款MR设备&#xff1b;索尼正开发小尺寸折叠屏手机&#xff1b;万达辟谣大规模裁员&#xff1b;智能仿生手让截肢者重获手心的温度 ChatGPT登顶美区iOS免费榜 ChatGPT 在 iOS 美区免费 App 排行榜上位列…