百度文心一言在国产模型中倒数?我看懵了

夕小瑶科技说 原创
 作者 | 卖萌酱最近几天,我们公众号的社群在纷纷转发一张名为SuperClue 评测的截图。科大讯飞甚至在官号进行了宣传:

4272bf67af74d92f09f1a33c737ceb70.png

由于讯飞星火大模型刚发布,笔者玩的少,它是不是真的是国产最强这个笔者不敢下结论。

但在该评测截图中,当下国产模型中热度最高的百度文心一言竟然连一个小型的学术开源模型ChatGLM-6B都打不过。这不仅与笔者自己的使用体验严重不符,而且在我们的专业NLP技术社群中,大家也纷纷表示一脸懵逼:

1dcac3af2d6f14981575576c409d85e6.jpeg 6701ae991e218d53640445b57f0dc5a9.jpeg

好奇之下,笔者去这个superclue榜单的github,想看看这个测评结论是怎么得出来的:

https://github.com/CLUEbenchmark/SuperCLUE

首先笔者注意到这个repo下面已经有一些issue了:

debaff2d6fdbf871d88683eb129080e8.jpeg 3442f002dda1c645173ffb7268848bff.jpeg

看起来这个离谱的感觉不仅仅是笔者有,果然群众的眼睛还是雪亮的。。。

笔者进一步看了一下这个榜单的评测方式:

777afa6cb65a0983d34d65b40acfec68.jpeg

好家伙,原来所谓的生成式大模型的测试,竟然全都是让模型做选择题。。。

很明显这种做选择题的评测方式是针对BERT时代的判别式AI模型的,那时候的AI模型普遍不具备生成能力,仅仅有判别能力(比如能判别一段文本属于什么类别,选项中哪个是问题的正确答案,判断两段文本的语义是否一致等)。

而生成式模型的评测与判别式模型的评测有相当于大的差异。

例如,对于机器翻译这种特殊的生成任务而言,一般采用BLEU等评价指标来检测模型生成的回复与参考回复之间的“词汇、短语覆盖度”。但机器翻译这种有参考回复的生成类任务是极少数,绝大多数的生成类评测都要采用人工评测的方式。

例如闲聊式对话生成、文本风格迁移、篇章生成、标题生成、文本摘要等生成任务,都需要各个待评测模型去自由生成回复,然后人工去对比这些不同模型生成的回复的质量,或人工判断是否满足了任务需求。

当前这一轮的AI竞争,是模型生成能力的竞争,而不是模型判别能力的竞争。最有评价权的是真实的用户口碑,不再是一个个冰冷的学术榜单。更何况是一个压根没测模型生成能力的榜单。

回想起来前些年——

2019年,OpenAI发布了GPT-2的时候,我们在堆tricks刷榜;

2020年,OpenAI发布了GPT-3的时候,我们在堆tricks刷榜;

2021-2022年,FLAN、T0、InstructGPT等instruction tuning和RLHF工作爆发的时候,我们还有不少团队在坚持堆tricks刷榜…

希望这一波生成式模型的军备竞赛,我们不要再重蹈覆辙。

那么生成式AI模型到底应该怎么测?

很抱歉,我前面说过,如果想做到无偏测试,非常非常的难,甚至比你自研一个生成式模型出来难得多。难度有哪些?具体抛几个问题:

  • 评测维度该如何划分?按理解、记忆、推理、表达?按专业领域?还是将传统的NLP生成式评测任务杂揉起来?

  • 评测人员如何培训?对于写代码、debug、数学推导、金融法律医疗问答这种专业门槛极高的测试题,该如何招募人员测试?

  • 主观性极高的测试题(如生成小红书风格的文案),该如何定义评测标准?

  • 问几个泛泛的写作类问题就能代表一个模型的文本生成/写作能力了吗?

  • 考察模型的文本生成子能力,篇章生成、问答生成、翻译、摘要、风格迁移都覆盖到了吗?各个任务的占比均匀吗?评判标准都清晰吗?统计显著吗?

  • 在上面的问答生成子任务里,科学、医疗、汽车、母婴、金融、工程、政治、军事、娱乐等各个垂类都覆盖到了吗?占比均匀吗?

  • 如何测评对话能力?对话的一致性、多样性、话题深度、人格化分别怎么设计的考察任务?

  • 对于同一项能力测试,简单问题、中等难度问题和复杂长冷问题都覆盖到了吗?如何界定?分别占比多少?

这只是随手抛的几个要解决的基础问题,在实际基准设计的过程中,要面临大量比以上问题棘手得多的问题。

因此,作为AI从业者,笔者呼吁大家理性看待各类AI模型排名。连一个无偏的测试基准都没有出现,要这排名有何用?

还是那句话,一个生成式模型好不好,真实用户说了算。

一个模型在一个榜单的排名再高,它解决不好你在意的问题,它对你来说就是个一般般的模型。换言之,一个排名倒数的模型,如果在你关注的场景下发现非常强,那它对你来说就是个宝藏模型。

在此,笔者公开了我们团队内部富集和撰写的一个hard case(困难样例)测试集。这份测试集重点关注模型对困难问题/指令的解决能力。

这个困难测试集重点考察了模型的语言理解、复杂指令理解与遵循、文本生成、复杂内容生成、多轮对话、矛盾检测、常识推理、数学推理、反事实推理、危害信息识别、法律伦理意识、中国文学知识、跨语言能力和代码能力等。

再次强调一遍,这是笔者团队为测试生成式模型对困难样例解决能力而做的一个case集,评测结果只能代表“对笔者团队而言,哪个模型感觉更好”,远远不能代表一个无偏的测试结论,如果想要无偏的测试结论,请先解答以上提到的测评问题,再去定义权威测试基准。

想要自己评测验证的小伙伴,可以在本公众号“夕小瑶科技说”后台回复【AI评测】口令来下载测试文件

以下是在superclue榜单中受争议最大的讯飞星火、文心一言与ChatGPT这三个模型的测评结果:

d45b44248431c6d3705b7a6435b267bf.jpeg fd0b40692b2ff8130b5e25a63bef162c.jpeg 2dd2a16c1e60f94bbba3dd8de9e1536e.jpeg

困难Case解决率:

  • ChatGPT(GPT-3.5-turbo):11/24=45.83%

  • 文心一言(2023.5.10版本):13/24=54.16%

  • 讯飞星火(2023.5.10版本):7/24=29.16%

这是要论证讯飞星火不如文心一言吗?如果你仔细看前文了,就明白笔者想说什么。

确实,尽管在这份我们内部的困难case集上,星火模型不如文心一言,但这不能说明综合起来谁一定比谁强,仅仅说明,在我们团队内部的困难case测试集上,文心一言表现最强,甚至比ChatGPT多解决了2个困难case。

对于简单问题而言,其实国产模型跟ChatGPT已经没有太大差距。而对于困难问题而言,各个模型各有所长。就笔者团队的综合使用体验来看,文心一言完全足以吊打ChatGLM-6B等学术测试性质的开源模型,部分能力上不如ChatGPT,部分能力上又超越了ChatGPT。

阿里通义千问、讯飞星火等其他大厂出品的国产模型也是相同的道理。

还是那句话,如今连一个无偏的测试基准都没出现,你要那模型排名有啥用?

比起争论各类有偏的榜单排名,不如像笔者团队一样去做一个自己关心的测试集。

能解决你问题的模型,就是好模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/18038.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT演进过程

GPT-3.5[24] GPT-3.5 是从 GPT-3 演化来的一些列模型,如下图所示,从初始的 GPT-3 到 GPT-3.5 再到 ChatGPT 是经过了一些列的优化和演进。图片来源:ChatGPT进化的秘密 和 拆解追溯 GPT-3.5 各项能力的起源,参考文章整理了以下 GP…

摩根大通打造ChatGPT式人工智能服务;度小满开源金融大模型“轩辕”;2022年中国数字孪生市场规模超100亿元丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 阿里巴巴:网传裁员为谣言,今年预估新招15000人 5月25日,阿里巴巴集团官微宣布,2023年六大业务集团总计需新招15000人,其中校招超过3000人。同时表示&a…

如何用ChatGPT协助生产社群的每日新闻资讯?

该场景对应的关键词库(8个): 品牌推广、产品信息、行业动态、用户互动、品牌文化、品牌活动、行业知识、兴趣爱好 例如:新消费、餐饮品类、品牌联名 注意:受制于ChatGPT语料库的数据包截止时间是2021年9月&#xff0c…

月薪30k,这个网络工程师凭什么?

晚上好,我是老杨。 最近又收到一些小友投稿,不少刚入行的小友想和我聊聊网工的职业发展,觉得自己的薪资升不上去。 为什么别的资深网工能月入30k,而你15k顶天了? 其实对比其他工种,网工这个技术性工作&am…

AI+时代开启,算力模组成为推动AI应用落地的动力之源

人工智能是第四次技术革命中的重要技术。近期ChatGPT不断出圈,OpenAI随即又推出了新一代大语言模型GPT-4,再次引发了全球对人工智能技术发展的关注。微软宣布正式把GPT-4模型装进Office套件,推出全新的AI功能Copliot。在国内,百度…

雷军入局!小米大模型拼图会志在何方?

原创 | BFT机器人 OpenAI发布的ChatGPT,凭借海量参数与训练数据加持的惊人语言生成能力,引发了人工智能领域的热潮。ChatGPT的强大实力令业界瞩目,推动了科技企业在大语言模型的布局。 Google在2018的BERT模型,标志着预训练语言模…

【文末福利】我用英飞凌的PSoC™ 62搞了点智能家居的创意

【英飞凌创意创客大赛】基于Infineon和ChatGPT的人工智能语音小管家 概要 本文给大家介绍一个Infineon和ChatGPT的人工智能语音小管家项目,该项目是博主架构师李肯参加由RT-Thread与英飞凌联合举办的2023英飞凌创意创客大赛的参赛项目,旨在探索智能硬件智…

基于51单片机AT89C51的小型音乐喷泉控制系统设计

【ChatGPT】前些天发现了一个巨牛的人工智能学习电子书,通俗易懂,风趣幽默,无广告,忍不住分享一下给大家。(点击查看学习资料) wx供重浩:创享日记 对话框发送:单片机小喷泉 获取完整…

国产自研GPT大语言模型|实在智能TARS

目录 前言 TARS名字由来 实在智能 TARS 应用演示 大模型RPA 大模型IDP 最后 前言 Chat-GPT问世以来,国内外知名公司纷纷加入到大模型的研发行列中,2023年无疑成为大模型发展元年。百度、谷歌等科技巨头百家争鸣,新锐科技公司也不甘…

突发!AI视觉大牛陶大程被爆将离职京东探索研究院院长!

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【计算机视觉】微信技术交流群 AI 技术能成为京东第二增长曲线的原动力吗? 转载自:AI科技评论 | 作者:陈彩娴 编辑:岑峰 AI科…

还在对大模型做刷榜优化吗,错了!专业考试不是唯一基准

夕小瑶科技说 原创 作者 | 智商掉了一地、鹰钩鼻涕虫 自从推出 GPT-4 以来,OpenAI 并没有公布太多关于它的实现细节。虽然曾经 OpenAI 在创立之初就将自己定义为一家非营利的机构,并格外注重人工智能(AI)的安全和隐私。但理想很…

微软 CTO 断言,明年是AI社区最激动人心的一年,网友:GPT-4 要来了?

来源:AI前线 整理:褚杏娟 核子可乐 GPT 不出,AI 万古如长夜。 “对于人工智能,2022 年是有史以来最激动人心的一年。”微软首席技术官 Scott Stein 在近日的分享中说道,但他还自信地表示,“2023 年将是 AI…

英伟达、Google与Adobe陆续推出AI模型,未来还会有多少职业会被取代?

3月21日晚,关于GPT的热点依然在继续。 在一年一度的GTC大会上,英伟达发布了新显卡H100 NVL,它拥有双GPU NVLink与188GB HBM3内存,专为算力需求巨大的ChatGPT而设计。 Adobe Premiere的傻瓜式插件Runway Gen 2也首次披露&#xff0…

【大模型】—LangChain开源框架介绍

大模型——LangChain开源框架介绍 2023年可以说是AI大语言模型发展元年,随着OpenAI的ChatGPT和GPT-4的发布,点燃了人工智能大语言模型的发展浪潮,各大科技公司纷纷推出了自家的大语言模型产品,各国更是将大语言模型的发展作为人工…

程序员变高危职位!又一个删库跑路进去了

上一篇:中国各城市首轮感染高峰期预测! 最近又有一个同行为了泄私愤,又删库跑路了。(我为什么要加个“又”?) 一提到「删库跑路」,大众肯定最新会想到程序员群体。 没错,我们手上握着…

【电商AI工具一期】AI引领电商新风潮:20款AI电子商务工具盘点,让你实现财富增长!

注: 本文可自由转载 0. 未来百科 未来百科(https://nav.6aiq.com),是一个知名的AI产品导航网站 —— 为发现全球优质AI工具而生 。目前已 聚集全球3000优质AI工具产品 ,旨在帮助用户发现全球最好的AI工具,同时为研发AI垂直应用的…

如何使用ChatGPT帮助孩子辅导作业?

如果您对自媒体内容感兴趣,关注公众号:色宁AI,发送邮件给tiktok_top_listshsening.com即可加入邮件列表,可免费获取youtube/tiktok top100热门视频名称和链接,每天免费发送,每天免费发送,每天免…

面对ChatGPT的挑战,教育如何接招?

面对以ChatGPT为代表的AI所带来的挑战,教育必须看清未来趋势,要不然费劲心思育人,就如同埋头苦干造了一艘船,过了几十年却发现旅行目的地是沙漠一样无用。 为此,上海市教育委员会副主任倪闽景提出,教育改革…

如何借力ChatGPT辅导孩子学习和成长

ChatGPT云炬学长 公众号:云炬网络 ChatGPT不仅可以成为一名优秀的教师,甚至可以成为教育大师,让您的孩子直接与教育大师对话、学习、进步。 这在AI 2.0之前,是无论如何也无法想想的。 下面,就让ChatGPT成为下面4位…

ChatGPT对未来教育的影响:教师学生需要掌握这个新能力

美国人工智能公司OpenAI的大语言模型ChatGPT在推出约两个月后,1月已达到1亿月活跃用户,成为历史上增长最快的消费者应用程序。 目录 01.诞生过程 02.背后的技术 03.颠覆的行业 04.对教育的未来变化 01.诞生过程 2018年6月,拥有1.17亿参…