大模型评测,也太难了吧

来自:包包算法笔记

进NLP群—>加入大模型与NLP交流群

大模型的评测应该怎么弄?

之前在Baichuan 7B的时候,有个哥们在github发布了一个issue,说这个模型有C-eval测试集泄漏的问题,具体证据为:

79722ded96b68bdb254e4ad6ea588aa5.png

当然,百川也不避讳,让大家充分讨论这个问题。

官方给出了一个解释:

其实没什么毛病,另外我在刚发布的13B模型上测试了这个,还是存在同样的问题。另外我尝试了用13B的base模型让模型续写,一看就是训练了不少题库。。

d3bdcdcf91a15291ee3d16986dbdc5bc.png

首先C-eval本身题目是公开的离线测试,答案是不可见在线提交的形式来评测,这样能一定程度上规避泄漏的问题。

但由于大模型的特殊性,其训练数据讲究大而全,巴不得全网的数据都塞进去。

目前评测大模型的方法,除了手动体验,人工评测,其他都是数据集题目的形式。

数据集旨在考察大模型的百科全书式的知识理解程度,为了好评测,把他们转化成客观选择题的形式。

这样的排行榜会存在一个很尴尬的问题,那就是一众中文大模型在排行榜上吊打GPT3.5甚至GPT4,实际体验却不尽人意。

比如经典的C-eval排行榜目前是这样的:

84529a2073ac562e81718e75a2ac0705.png

但大家心里都有一杆秤,几斤几两都门儿清。

这就是为什么现在卖数据最火的是题库数据,仔细想想,这就跟高考刷题一样。

这里引用下八友科技CEO(国内著名数据提供商,大模型数据市占率50%)的观点:


我认为大模型的主战场分3个阶段。

第一个阶段是重点突破“有正确答案”的领域。比如中高考,这个通过简单的得分情况,可以让模型的能力进行比较,这一步非常关键。现在教辅类数据非常关键,也就在于此。

除了这个,还有就是场景结合的,这个因为有场景优势的企业有独家数据,有独家业内人士,也就是有正确“答案”,可以判断好坏,因此这也是一个重点战场。

第二个阶段是重点突破“没有正确答案”的领域。这个阶段评价遇到了困难,但是基于第一个阶段,且有了足够多数据,可以认为大模型给出的预测,或者判断,理解是具有高水平的,只是这个没法或者很难给出标准答案,这个领域更加艺术的感觉,你会觉得大模型给出的回答更好,但是你也不知道最好是什么样子的。

第三个阶段是重点突破涉及生产力相关的领域,也就是跳过了第一阶段证明阶段,和第二阶段的炫耀阶段,直接推动社会生产力发展。


目前数据提供商最值钱的数据就是题库了,国内大模型很懂得投机取巧,反正你是知识类客观题评测,我把全网的题库数据都塞进去。

实在买不到买不全的数据,我还可以用测试集的每一道题目去反向爬取互联网相关内容,爬不到原题也能找到差不多的数据,再把他们都塞进去,针对性刷题。

这就是离线测试集问题的所在了,这对大模型来说,相当于开卷考试。

真正的考试连题干也不能让你看到。

所以针对客观题的大模型评测应该怎么做呢?

我们设想大模型参与的闭卷考试。

作为一个kaggle老玩家,这里推荐一个kaggle比赛,昨天刚上新的热乎的数据,https://www.kaggle.com/competitions/kaggle-llm-science-exam/ ,数据来自于参考维基百科话题,用gpt生成+人工过滤的科学领域多选题,附带参考训练集,测试集隐藏不可见,提交模型在线推断,最高支持10B左右模型推断。

众所周知,kaggle是谷歌家的,谷歌这是在众筹大模型了。。。

抛开数据本身质量不管,这个模式也存在一个问题,对发起方的经济实力有一定要求,比如上百B的模型咋推断?

另外如果模型对部署有特定要求怎么办?

还有就是提交模型和推断代码,无疑于把自己的核心科技提供给第三方了,所以这里存在一个信任的问题。

另外考察数据的话,kaggle上这个评测领域也过于局限了,不够全,更像是一个大榜单中小数据。

评测的数据本身要注意什么呢?这里引用了的一些思考 :

原文:https://mp.weixin.qq.com/s/Q4IU6dbwy5U-iQ0ah_TGBA

大模型评测其中四点比较重要:能力边界、case边界、指令形式、自动化量化。

能力边界

在今天这个大模型效果目前,我们需要测它的哪些能力?听到比较多的有代码能力,推理能力,写作能力,多轮对话能力等等,这些能力字面意思很好理解,但是如果我们想真真整理出一个好的技能树也是比较困难的,比如说文本分类和阅读理解这个归纳到哪个能力?有的会说放到NLP基本任务,那有的阅读理解case(比如先需要在文本中找到对应的信息,然后进行一定的加减等逻辑运算才能得到结果)需要很强的推理能力,这个是该放到阅读理解还是放到推理能力?

所以划分的能力是否具有一个很好的覆盖性和正交性是这里需要考虑的点。

case边界

假设当前我们在测两个模型的数学能力,极端情况下,测试的100道case都是类似 “1+1等于几?”,我们拿这些case同时问gpt4和市面上一个其他的模型,得到的回答都是2,于是我们得出结论:两个模型数学能力接近。这显然不靠谱 !!!

又或者我们现在在测试写作能力,测试case是“帮我写一个悬疑故事”,结果两个模型都写出来了,都是有点悬疑的,那么得到结论写作能力接近,这结论显然也不靠谱。

为什么不靠谱呢?假设我们现在同样是在考察数学能力和写作能力,但是case分别是:(104+903)*2-18^2-10、帮我写一个悬疑故事,故事背景发生在唐朝,主人公是一名锦衣卫,故事的开头要是从一件很小的事带入然后发现了更多背后的故事。写出前三章故事。

还有各种各样的复杂指令,比如中英混着问,就能更好的测评模型的双语能力。

随着测试的case变得复杂后模型所能cover的能力可能机会看出明显的差距,自然也就得到不同的结论了,起码不会草率的得出比如数学能力一样。

所以测试的case是否具有多样性和复杂性是这里需要考虑的点。

指令形式

这里单独把指令形式拿出来,是想提一下prompt engineering这件事。

我们知道如今这些大模型对prompt很是敏感,同一个问题回答错了,可能换种问法比如加个“一步步推理”引导语他就又能回答对了,又比如通过few-shot这种形式先给它几个例子然后再问类似的问题,就能很好的回答。

每个模型对prompt的敏感度又不一样,对于同一个问题,同一个模型得到的结论可能都是不一样的,那怎么办呢?

这里笔者的建议是不要本末倒置,我们现在做的事情是测评,尤其是在做多个模型之间的对比,那么prompt就应该是符合人提问习惯的指令形式,对于某个问题人类怎么喜欢问就怎么来,如果模型不能get到,那就是你的指令对齐或者泛化做的不好,而不是说要花很大力气去写prompt迎合各个模型。

那么返回头来说,如果现在的工作是在测当前这个模型到底有没有这个知识,举个不太恰当的例子,假设你正在研发一个大模型,发现问“中国的capital是哪里?”他居然回答是苹果,那这个时候需要定位这个问题,你就可以先用中文问问“中国的首都是哪里?”看看能不能回答对,又或者先举几个类似的例子告诉模型,然后再问它,如果能够回答说吗模型本身是有“北京是中国的首都”这个通用知识的,可能是英文或者双语能力不行,所以这里通常的做法是,会用few-shot的指令形式去测底座模型,先看看底座模型是否有这个能力,如果没有,那后面训练什么的都是很难。又比如你是一个运营工作人员,现在也只能用A这个模型来完成某一件事,那就可以花点时间来做prompt engineering,来使得输出最大化的满足你的需求。

所以作为测评,指令设计不应该特意过多的去迎合模型(除非有如上的特殊目的等等),甚至应该像上一节说的,要多样性,才能更好的探究到模型的理解能力

自动化量化

最后的评估都需要有一个量化的结论,理论来说,人工评估是最保险的,甚至一些能力需要一些专业人员(代码能力、各个学科的题目等等),但是这样效率过于低下且成本过高,尤其是对于模型的迭代。目前业界的做法通常是chatgpt或者gpt4去打分,所以这里的难度就变成了打分prompt怎么写,它需要考虑的点有两个,一个是怎么写使得gpt4能够更好的理解当前的,另外一个是怎么约束好输出,方便我们直接可以根据输出进行量化,比如做选择题等等。


怎么评价一个模型的好坏,不仅困难,而且十分重要,绝对是一个核心的科技,这现在也是除了oepnai各家没怎么搞定的一个问题。

这个问题很关键,是因为基座大模型的训练耗时耗力,如果不能想出很好的提早检验方式的话,做实验的速度会慢特别多,所有的时间成本都可以折合成算力上。

所以你做实验慢了,相当于比别人少了GPU,足够触目惊心吧。

openai不仅仅卡多,还有实验效率倍增的buff,相当于 卡 * 效率倍数。

我们从公开的资料能了解到,openai是通过小模型来推演大模型,训练的部分阶段推演全部阶段,从而预测最终大模型的好坏。

具体的技术细节openai也没有透露特别多,是核心科技之一,大模型评测是非常重要和有影响力的一个方向,建议大家持续关注。


进NLP群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13389.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

“南瓜书”:经典“西瓜书”学习伴侣,第2版来了!

公众号【机器学习与AI生成创作】后台回复:168。可参与免费寄送图书活动,活动截止日期为 2023-06-24 晚上10点 。 公众号后台回复:168(建议选中复制) 也可自行购买,戳如下,享受专属5折&#xff0…

经典“西瓜书”的学习伴侣“南瓜书”第2版重装上市!

2020年,Datawhale开源项目“南瓜书”发布,受到全网转发。3年后,“南瓜书”完整版第2版完结撒花,重磅出版。 南瓜书是经典“西瓜书”《机器学习》公式完全解析指南,第1版受到了读者的一致好评,并得到了俞勇、…

数据标注工:训练AI,被AI替代

图片来源:由无界AI生成 作者|马慧 前景和覆灭同时存在,数据标注从业者代延从未如此矛盾。 30岁的内蒙古人代延在今年初创业,组建了一个近30人的线上标注团队。此前代延曾在数据标注的众包平台做了两年。可以称为是“熟工”的他&am…

开源中文大语言模型集合【2023-06-19】

整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。 自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处…

文末送书 | 经典“西瓜书”的学习伴侣“南瓜书”第2版重装上市!

2020年,Datawhale开源项目“南瓜书”发布,受到全网转发。3年后,“南瓜书”完整版第2版完结撒花,重磅出版。 南瓜书是经典“西瓜书”《机器学习》公式完全解析指南,第1版受到了读者的一致好评,并得到了俞勇、…

【AI人工智能】LLM 开源中文大语言模型集合

整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。 目录 1. Model 2. Application 3. Dataset 4. Evaluation 5. Tutorial 6. Related Repository 自ChatGPT为代表的大语言模型(Large

程序员改变世界,从未如此直观

万万没想到,包博士的代码让一个六岁的小学生哇哇大哭。 这个让小学生流眼泪的“科学家代表”有非常漂亮的履历:清华大学毕业、博士曾在斯坦福就读,他现在是VIPKID的首席AI科学家,带领四十多人的产品研发团队负责公司的AI技术。 …

chatgpt赋能python:用Python下载MP3的方法

用Python下载MP3的方法 如果你想从互联网上下载MP3,那么你可以使用Python来实现这个任务。在本文中,我们将介绍如何用Python编写程序来下载MP3,同时还将分享一些有用的工具和资源。 Python中使用的库 要下载MP3,你需要使用Pyth…

火爆的ChatGPT快速学成,要看哪些书?

以前我们经常打趣说:***,你out了!当然了,玩笑成分居多。 但是如果作为一名技术人员,现在还没有听说过ChatGPT,那么你可能真的“out”了。 比尔盖茨说,ChatGPT的重要性堪比互联网的发明&#xff…

关于Chatgpt的所思所悟

关于最近看到的各种有关chatgpt的热火朝天的讨论、以及自己的所思所悟。我也有一些关于chatgpt的看法,随便写写。 1、chatgpt 是类似于一种模电转数电的进步。 模电转数电是指我们自然届的一些连续信号被采样后可以作为计算机等机器可以处理的离散值。说起来有点玄乎…

关于ChatGPT,汉硕人你需要了解这些。

近期,ChatGPT火爆全网,各个领域都展开了关于它的讨论,它的覆盖范围也是相当广泛:上到模拟去世的人的性格让人的心灵得到慰藉,下到算命塔罗人格测试类型。可谓是学贯中西,古今中外概莫能外。 图源clement日记…

用ChatGPT编写python脚本批量下载教辅书音频文件

0. 需求 周末给孩子买了一本教辅书,书上有配套的音频文件,可以通过微信扫描播放,但是平时孩子在家没有手机,怎么办呢?家中领导要求把它下载下了,放到蓝牙音箱上,那么说干就干。 1. 页面分析 音…

被“AI”坑了2800万

1984年,两个20出头的年轻人从相隔上千公里的两所院校分别毕业。其中一个是浙江大学数学系的史玉柱,另一个则是中央党校史上最年轻的研究生冯仑。在那个年代,他们最好的选择是接受分配,前者走进安徽省统计局,后者则留校…

Meta缺席大模型战局之因:嫌GPU太贵,用CPU代替

ChatGPT 引发了科技巨头之间的竞争,纷纷发布生成式 AI 产品。在本次大模型战场中,Meta 缺席了。 很难想象,Meta 此次落后于竞争对手是因为没有应用 GPU。据说Meta 把钱 All In 元宇宙了,现在用的是市面上最普通的 CPU 参加生成式 …

智能座舱,一场正在发生的交互革命

萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 当下,智能汽车已经成为城市脉络中的“数字节点”。 庞大的环境感知能力,快速穿梭城市的移动属性…… 相比于手机,汽车这个家和单位之外的“第三空间”,可以带给人们更多的想象&…

树莓派-14-打造智能音箱

用"树莓派"打造一款智能音响 智能音箱,是一个音箱升级的产物,是家庭消费者用语音进行上网的一个工具,比如点播歌曲、播报新闻、或是了解天气预报,它也可以对智能家居设备进行控制,比如打开窗帘、设置冰箱温…

利用树莓派制作智能音箱

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、语音识别二、语音合成1.引入库2.注册百度云账号,获取AppID和APIKey3.配置必要的信息(语音交互)4.合成请求token的url、获…

ChatGPT:关于WebRTC的未来,你怎么看?

了解音视频技术大会更多信息 编者按:ChatGPT可能在几天内成为某个领域的专家,不信?看看他对WebRTC的解读。感谢刘连响对本文的审校。 原文链接:https://webrtc.ventures/2023/01/the-future-of-webrtc-according-to-chatgpt/ 作者…

当 MQTT 遇上 ChatGPT:探索可自然交互的物联网智能应用

本文作者 Shifan Yu:EMQX 前端研发总监,负责 EMQX 的前端开发工作,同时也是 MQTTX 的开发者和维护者。 前言 随着物联网技术的迅猛发展,人与设备、设备与设备之间的互动已变得不再困难,而如何更加自然、高效、智能地实…

为何不能暂停AI研发?丨杨立昆吴恩达对话实录

北京时间4月8日凌晨0:30,Yann LeCun(杨立昆)和吴恩达针对近期甚嚣尘上的「AI暂停」一事进行了一场深入讨论,讨论主题为「为何为期6个月的AI暂停是完全错误的」。在这场风波中,二人都立场鲜明,明确表态反对暂停AI研发。汽车刚发明时没有安全带和交通信号灯,Yann LeCun认为…