国内大模型争霸赛,你最看好哪家?这是你心目中的大模型排名吗?

知乎:绝密伏击
地址:https://www.zhihu.com/question/598051793/answer/3034073973
深度学习自然语言处理 分享

进NLP群—>加入NLP交流群

OpenAI Vs Google

d5623ee991b8e833090e970607b84f4a.png

目前大模型 top2 应该就是 OpenAI 的 GPT-4,以及谷歌的PALM-2。这两家公司早已布局,而且技术实力雄厚。国内大模型和 GPT-4 相比,还是有比较大的差距。

但是国内的势头目前不错,百家齐鸣,还没有一家有绝对的优势。

让人头晕的排名

6de705ef62975f718a1b173850fafd50.png

之前有媒体给出了目前国内Top-5的大模型公司,分别是:百度的文心一言、阿里的通义千问、腾讯的混元、华为的盘古以及360的智脑

而最近,中文通用大模型基准(SuperCLUE)评测公布了最新结果,GPT-4 遥遥领先,而国内成绩最好的是科大讯飞的星火认知大模型。这里面文心一言居然排在了最后一名,甚至比ChatGLM-6B的得分还低,实在难以置信

9b945e90879e36e3ce78c762884d873f.png

但是我又仔细看了一下这个评测。妈呀,评测集是SuperCLUE,而非SuperGLUE

众所周知,在国际NLP领域,有大名鼎鼎的数据集 GLUE 和 SuperGLUE,非常权威,OpenAI、谷歌等的大模型都在上面评测,极大推动了 NLP 领域的发展。

这次这份 SuperCLUE 评测的发起方为 Chinese GLUE 组织 (简称 CLUE),CLUE 是仿照 GLUE由国内民间组织的评测,权威度和影响力与 GLUE 相比差很远,其微信账号主体属性为个人。但这也迷惑了不少圈内人,GLUE和 CLUE 分不清楚,堪称李逵和李鬼

还有一点存疑,评测榜单发布当天5月9日,其官网显示信息,中文基准测评成员顾问中排名第一的是崔一鸣,身份为学术顾问委员会主任,哈工大讯飞联合实验室(HFL)资深级研究员。而5月10日,官网已删除此条顾问的信息。

而001号创始会员徐亮,是会长,相当于这个榜单的实际负责人。昵称 brightmart,中文任务基准测评发起人。多个预训练模型中文版、文本分类和数据集开源项目作者。

徐亮还有另一个身份,在5月9日官网中显示,他是杭州实在智能算法专家,也就是元语智能的创始人,曾在2月份发布自称“国内首个功能对话大模型ChatYuan”,不仅无法测试,发布几天即被监管叫停。4月,又被报道套壳推出开源组件。有分析人士认为,不排除创业公司有融资压力,蹭热度吸引投资人关注。

该 SpuerClue 榜单发起方,001号顾问是讯飞身份背景、001号基准发起人是创业公司创始人。在榜单发布后,担心行业质疑其公平、公正,相关信息还被删除。这就有点不言而喻了。

仅用100道评测题目就出来了一份“权威报告”

最后来说下这个榜单本身,业内人士一眼就可以看出来,评测的很不合理,首先,没有公布评估数据,以及具体的评估方式。同时从它的公开表述,可推断总共题目就 100 道题目。这个题目量少到难以置信。专业人士可能有参与过,像国际权威 SuperGlue 榜单,题目一般都得有 2 万多道,离权威可是差了几万倍。况且,它的评测得分榜首都是人类,那这个评分的基准到底是什么?是否有很多主观性因素在里面?是否某些大模型提前在这个数据集上已经训练过?

任务设计太武断,所谓“通用”基准,是用以测试通用的人工认知能力的,那么我们自然希望,评测任务是参考了模型想要模拟的认知能力及相关理论,系统化地选择出来的。而实际上,我们观察到的则是,基准的作者们在选择任务的时候,更像是图方便、省事。以往,CLUE 中存在着部分数据集,一味考虑任务的复杂性,却在最起码的分布边界划分上(如NER各个类别的边界,如场所、景点类,组织机构及其子类),模糊不清,且数据的一致性无法保证。

要么别比,要比就来点正规的比赛。自己出题自己考,说不准还抢跑,自己还是评委,那这是欺不负了解真相的吃瓜群众。投机取巧,终皆散去。苦练内功,才是王道。

国内大模型排名(仅供参考)

抛开这些,从模型规模、模型效果、市场占有率等多个角度,百度的文心一言、华为的盘古、阿里的通义千问、腾讯的混元排在前四,应该是比较合理的,至于后面的排名,就不大能保证了。不过下面的排名也可以参考一下:

203711b83785ea7b73af8948de67c849.png

下面是一份完整的名单:

42957c4e1ec4c349ba0a9c4bba8fa49e.png 5cf637df0bdcfc900ffc9d374990448e.png

按发布时间排序:

08b189155cfa050adba838759d95f433.png

百度:文心一言

作为国内最早发布的大模型,百度的文心一言在今年3月16号就发布了,随后经过了多个版本的迭代。目前已经有上千家企业接入。文心一言支持图片、语音等多模态。

3月16日,百度在全球大厂中率先发布对标 ChatGPT 的大模型产品文心一言。据了解,文心一言内测一个多月,就完成了4次大的技术升级,大模型推理性能提升近10倍。

李彦宏在5月4日百度内部活动中表示,百度之所以能够在Google、Meta、Amazon等大厂之前率先发布生成式大模型产品,是因为百度在芯片、框架、模型、应用等四个层面做到全栈布局、层层领先。

360:360智脑

百度是国内搜索市场排名第一公司,而排名第二就是360。

大模型依靠的算力、数据、算法、场景,这两家公司都具备,这也是搜索公司的优势,有业务和数据支撑大模型研发和落地。

5月16日,360集团和智谱AI宣布达成战略合作,双方共同研发的千亿级大模型“360GLM”已具备新一代认知智能通用模型水准。

而在今天的世界智能大会上,周鸿祎展示了“360智脑”的多轮对话和“360鸿图”的AI生图两个能力。

fbbaa093ed9e8fb949fcc9882ee27c02.png

就像谷歌和微软,一个拥有谷歌搜索,一个拥有必应。国内的百度和360,一个拥有百度搜索,一个拥有360搜索。

搜索公司应该是这场大模型争霸赛最后的赢家。(只是个人看法)


进NLP群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33532.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenAI 创始人再签联名信,一句话声明简短有力AI或引发灭绝风险

作者 | 刘燕,核子可乐 全球 AI 大牛又签署一封公开信: AI 或将引发“灭绝风险” 本周二,人工智能安全中心(CAIS)发布了一份由 OpenAI 及 DeepMind 高管、图灵奖获得者及其他 AI 研究人员签署的简短声明&#xff0c…

大模型激战正酣,王坚能否带领阿里云王者归来?

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 5月11日,有消息称,十年前卸任阿里云总裁的王坚,将于近日以全新职位,全职加入阿里云。公开资料显示,作为阿里云创始人,王坚在2009年创办阿里云&#xff…

吴恩达杨立昆亲自下场开直播:GPT-5不能停!

编|梦晨 源|量子位 大模型研究不能停!吴恩达和LeCun为了这事儿,甚至亲自搞了场直播。毕竟再不出手,事态眼看着越来越严重了:马斯克等人叫停GPT-5研发的事态再次升级,已从千人联名发展到超过135…

GPT-5不能停!吴恩达直播回怼马斯克:汽车都还没发明,要什么安全带?

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年3月份热门报告合集 【限时免费】ChatGPT4体验,无需翻墙直接用 ChatGPT:AI模型研究框架 ChatGPT团队背景研究报告 ChatGPT的发展历程、原理、技…

GPT-5 不能停!吴恩达 LeCun 直播回怼马斯克:汽车都还没发明,要什么安全带

转自:量子位 | 公众号 QbitAI 大模型研究不能停! 吴恩达和LeCun为了这事儿,甚至亲自搞了场直播。毕竟再不出手,事态眼看着越来越严重了: 马斯克等人叫停GPT-5研发的事态再次升级,已从千人联名发展到超过135…

GPT-5 不能停!吴恩达回怼马斯克:汽车都还没发明,要什么安全带?

转自:量子位 | 公众号 QbitAI 大模型研究不能停! 吴恩达和LeCun为了这事儿,甚至亲自搞了场直播。毕竟再不出手,事态眼看着越来越严重了: 马斯克等人叫停GPT-5研发的事态再次升级,已从千人联名发展到超过135…

【LLMs】第 1 章:大型语言模型概述

🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞…

通过准确性、可解释性、校准度和忠实度,对ChatGPT的能力进行全面评估

作者:李博,方格翔,杨洋,王泉森,叶蔚,赵文,张世琨单位:北京大学知识计算实验室(KCL)论文:https://arxiv.org/abs/2304.11633代码和数据开源&#x…

无论BlockCity是否并购的天涯社区,请保留住我们的青春回忆

这几天,网上疯传着天涯社区将被BlockCity收购的消息,我也看了很多人发表的文章和观点,可我真正关心的,不是传闻是否可信,也不是这两个平台合作后会有怎样的表现,以及BlockCity区块城市能不能成为元宇宙时代…

6种互联网创业副业策略

今天给大家分享几个实操项目,不需要太多成本,尤其是最后一个项目,让你轻松上手,直接赚钱。1、AI工具近期非常火的ChatGPT,有些人可能不知道这是什么,但另一些人已经利用它每天赚钱。他们通过买卖账号赚取差…

【C#基础】简单的双色球彩票模拟介绍

欢迎大家一起交流学习 目录 前言 一、双色球原理介绍 二、具体实现 1.买票函数 2.创建机选球 3.比较函数 三.主函数 四、测试 总结 前言 本文介绍了简单的双色球彩票模拟介绍的基础内容。 提示:以下是本篇文章正文内容,下面案例可供参考 一、双…

java模拟双色球统计红球篮球出号

本人由于连续多个月买双色球未中,气愤之下突发奇想,自己写了个双色球统计算法(菜鸟写得不好忘包涵) 该功能只是程序自动生成的选号,原本打算用网络爬虫来从360彩票网站爬取数据。即从360网站彩票随机工具随机生成100-…

chatgpt赋能python:Python词性分析:一步步了解自然语言处理技术

Python词性分析:一步步了解自然语言处理技术 Python是一种高级编程语言,拥有广泛的应用领域。自然语言处理技术是其中一个重要的领域,它包含了词性分析、命名实体识别、句法分析等多项任务。词性分析是自然语言处理中的基本任务之一&#xf…

SCI论文降重技巧盘点 - 易智编译EaseEditing

要想顺利发布SCI论文,首先就是要保证论文的原创性和创新性。要知道论文写作当中对于文献和资料的引用是必不可少的,所以论文的重复率很有可能会超标,对于这点要留意。 免费的查重网站有PaperYY、百度学术查重、Freecheck、Paperpass等等&…

chatgpt赋能python:Python降重:让数据更干净,让SEO更有效

Python降重:让数据更干净,让SEO更有效 在数据处理过程中,数据重复性是一个很常见的问题。而在SEO优化中,数据质量则直接关系到搜索结果的准确性和排名效果。因此,降重是一个非常重要的步骤,让数据更加干净…

工程数学参考用书应用概率统计(陈魁)部分答案1~6章

今天把研究生课程工程数学的作业全部写完了,作业答案就此丢掉未免有点可惜,不如留在此处,留待有缘人! 第一章 随机事件及其概率 习题1.3、1.4、1.5、1.8、1.9、1.12,答案见下图 第二章 离散型随机变量 习题2.1、2.…

二十种题型带你复习《概率论与数理统计》得高分(高数叔)

题型一 事件及概率的运算 知识点 注意: 1 互斥与对立事件 2 事件的差 注意: 1 德摩根律注意: 1 加法公式 2 减法公式(事件的差)题目 注意: 1 填空题注意: 1 德摩根律 2 三个事件的和的公式 3 两个事件的积事件为…

Edexcel ALevel数学P2考题解析

数学是很多学科的基础,同时也是A Level中一门非常重要的课程。是基本所有中国学生会选择的科目,A Level的数学,就学科内容来说,内容的跨度很大,从简单的国内初中知识一直延伸到大学的微积分内容。而且有些下属科目如统…

留学生可以用ChatGPT来钻空子吗?

OpenAI在11月30日发布了ChatGPT,仅在一周内,用户数量就超出了100万人,可以说是爆火出圈了! 然而,很多人也正在试图利用ChatGPT来钻空子。大学生开始用ChatGPT写Essay,科研人用ChatGPT写论文,这让…

深度学习实战7-电商产品评论的情感分析

文章目录 一、前期工作 导入库包导入数据数据处理 二、神经网络模型构建 三、训练模型与测试 大家好,我是微学AI,今天给大家带来一个京东商品评论的情感分析与预测实战案例。 进几年网上购物越来越流行,在加上疫情的缘故,很多…