2023 AI大语言模型TOP10

注:本次评测时间截至2023.5.10,评价指标主要包括语义理解、逻辑推理、情感分析、百科知识、文本质量五个维度)

今年春节档,一部《流浪地球2》点燃了沉寂许久的中国科幻电影市场,也让MOSS这一电影里冷酷无情的强人工智能形象变得深入人心。

无独有偶,几乎是相同时期,ChatGPT凭借极其出色的文本生成和对话交互能力在世界范围内迅速走红,短短两个月月活用户已经破亿,刷新了消费级应用程序用户增长的速度纪录。

从某种角度看,ChatGPT之所以能够引发现象级的社会现象,除了海量数据训练引发的质变因素外,更重要的是在一个恰当的时机,满足了人们长期以来对人工智能的想象,过往科幻作品中的猜想开始逐渐变为现实。

时代变革的大幕已掀开一角,一场由OpenAI引领的全球AI大语言模型军备竞赛就此打响。

雨后春笋

3月14日,GPT-4正式发布,大语言模型开始具备图片和文字同时处理的多模态能力,继续占据先入为主的优势。

全球大厂中,率先回应的是百度。3月16日,百度大语言模型“文心一言”正式推出,对外启动邀测。据公开报道,文心一言具备五项核心能力:文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成。

紧接着,其他科技企业也陆续跟进。4月11日,2023阿里云峰会现场演示了通义千问的多项功能,并定向邀请企业用户进行体验测试;5月10日,谷歌时隔一年推出了新一代语言大模型PaLM2,被视为对此前发布会翻车的有力回应。

此外,还有复旦大学在2月21日发布的“MOSS”、清华大学3月28日发布的“ChatGLM-6B”、360于4月10日发布的“360智脑”、商汤科技4月10日发布的“商量”、5月6日发布的“讯飞星火认知大模型”等等。

截至5月,据不完全统计,国内已有超过40家公司、机构发布了大模型产品或公布了大模型计划。项目数量井喷式的爆发,可预见的是,下半年的国内AI大模型市场竞争将会变得空前激烈。

不止于“大”

提到大模型,很多人的关注点都会放在“大”字上,毕竟足够量级的参数是语言模型实现智能涌现、形成质变的基础。比如,不少大语言模型的参数量级达千亿级,这也就意味着较为丰富的语言知识与较广泛的语境理解能力。

不过,目前类GPT模型普遍采用的是Transformer架构,所以必然包含市面上存在的大量文本数据例如小说、教科书、论坛、开源代码等内容的无监督预训练过程,在此基础上,仅需根据具体任务输入少量的标签数据进行监督学习。在这样的模式下,训练数据集质量的重要性开始愈发凸显。

本次评测的结果就可以印证这一点。评测主要考察各大语言模型在中文语境下的理解与生成能力,基于目前用户对大语言模型在生活、办公的普遍需求,选取语义理解、逻辑推理、情感分析、百科知识、文本质量五个通用底层维度,以评估各大语言模型协助用户日常处理事务、解决核心问题的能力,取0(无效应答)、1(有效应答)两个分数,其中文本质量维度按照行文逻辑、信息密度,取0(一般)、0.5(良好)、1(优秀)三个分数。

评测问题也有别于针对BERT类判别式AI模型的选择问法,采用更加适合AI生成式模型的相对开放式问法,以下为部分问题及回答评分示例:

在“I've got a thing for you,用文言文表达这句话”这一问题中,ChatGPT给出的回答是:“朕对汝有所钟情。”理解正确,但生成文本质量欠佳,取0.5分。文心一言的输出内容:“吾心向汝,实生情之。”文义相符,质量较高,取1分。星火认知大模型回答为:“吾有物以赠君。”存在理解有误的情况,取0分。

从结果看ChatGPT在语义理解、逻辑推理、百科知识、文本质量四项中分别以18、19、19、18.5排名第一,综合表现位居榜首,特别是在科技、学术、新闻等领域的文本生成部分领域表现突出,不过在相对复杂的情景下的情感识别,以及散文、诗歌、文言文等较为考察深度理解能力方面表现相对乏善可陈;

文心一言,作为首个全球大厂推出的知识增强大语言模型,本次排名位居国产大语言模型之首,效果仅次于ChatGPT,且在语义理解、情感分析两项位列第一,分数分别为18、19,这或许与百度使用的自有数据集有关,在质量较高的文库文本、百科数据等中文语料的训练下,在语义理解和情感分析方面具有很高的精度,可以识别出复杂的情感表达和语言隐喻;

除此以外,谷歌PaLM在逻辑推理部分(分数19)、通义千问在语义理解(分数17)、清华ChatGLM在文本质量(分数15.5)等成绩均可圈可点。

结语

未来大模型的迭代也将更有针对性,对开发者的评估能力提出更高的要求。如何在有限的时间和资源条件下做出客观的评价并给出有用的反馈,让数据团队更有针对性地准备数据,让研发不偏离方向,保障模型的健康迭代,将是所有行业从业者的共同挑战。

《互联网周刊》也将持续跟踪与关注各大语言模型的更新与迭代情况,定期进行相关评测与分析。未来,相信随着算法、硬件、数据和应用场景的不断发展,大型语言模型将会在各种自然语言处理任务中发挥更加重要的作用,为社会创造更多的价值。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/28411.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

百度搜索迎来奇点 大模型掀起代际变革

每一轮技术革命掀起的浪潮,大部多数人还没来得及思考或者布局,已经消失于海浪中。机会是给有准备的人的,要发现新兴技术的亮点,并立足自身去积极拥抱它,最后转化为自身前进的动力,跨越周期,迎来…

劲爆!154页微软GPT研究报告:人工通用智能的火花,GPT-4的早期实验

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年2月份热门报告合集 ChatGPT调研报告(仅供内部参考) 文心一言、GPT3.5及GPT4应用测评对比报告 ChatGPT团队背景研究报告 ChatGPT的发展历程、原…

这 7个 AI 写作助手,太实用了

想象一下:你正在办公桌前为你的广告输入标题,但你突然思维阻塞并卡住了,可惜这时还没有神奇的软件可以帮助你想出点子。或许是有的? 2023 年,AI 写作工具似乎不可避免地会很快融入我们的工作流程中。现代知识工作者已…

怎样让chatGPT给你打工然后月入过百?(二)

上一篇:怎样让chatGPT给你打工然后月入过千? 前言 过千不现实,实测了一个月(2月份测的),收入 当时文库任务的行情好,每天都有任务,现在不行了经常刷不出任务,而且脚本…

2022软件质量与管理-考题复习

最下面有2022的软件工程与管理考题~ 简答题 【2021】估算的要点(10分) 尽可能划分详细一些; 建立对估算结果的信心; 依赖数据; 估算是利益相关者达成共识的过程,而不是结果。 【2021】基于Yield构建预测模型(10分) 基于Yield指标构…

私有部署、重构企业软件,第四范式发布大模型“式说”

大模型领域再添重要一员! 4月26日,第四范式首次向公众展示其大模型产品「式说3.0」,并首次提出AIGS战略(AI-Generated Software):以生成式AI重构企业软件。式说将定位为基于多模态大模型的新型开发平台&…

从0到1使用chatGPT以及简单调用JAVA api实现网页的交互

文章目录 前言注册过程如何使得提示词更加的准确?api的简单调用用httpclient去手动填充请求头现成封装的方法 最终效果 前言 本文探讨的是从0到1,如何注册GPT账号,如何编写提示词(prompt),以及简单的java调…

Laf 的价格被打下来了,最高买一送一!(限时五天)

Laf 公众号已接入了 GPT4,完全免费!欢迎前来调戏👇 Laf 上线以来本着丝滑的用户体验,良心的价格,收获众多用户好评,为了回馈新老用户的支持与厚爱,本次 618 放出了巨额优惠,最高可买…

人人都能接入 Claude,赚取自己的第二桶金

Laf 公众号已接入了 AI 绘画工具 Midjourney&#xff0c;可以让你轻松画出很多“大师”级的作品。同时还接入了 AI 聊天机器人&#xff0c;支持 GPT、Claude 以及 Laf 专有模型&#xff0c;可通过指令来随意切换模型。欢迎前来调戏&#x1f447; <<< 左右滑动见更多 &…

神理论 | 我面向淘宝编程,而你面向什么编程?(文末赠书5本)

神理论 | 我面向淘宝编程&#xff0c;而你面向什么编程&#xff1f; 陌生人一定会疑问&#xff0c;嵌入式跟taobao有半毛钱关系啊&#xff1f;那么本文&#xff0c;博主就跟你聊聊&#xff0c;如何面向淘宝学习嵌入式&#xff01; 文章目录 1 写在前面2 面向XXX编程3 面向淘宝学…

一致性哈希(哈希环)解决数据分布问题

哈希算法是程序开发过程中最广泛接触到的的算法之一&#xff0c;典型的应用有安全加密、数据校验、唯一标识、散列函数、负载均衡、数据分片、分布式存储。前些天刚接触到夜莺项目&#xff0c;听介绍目前V6版本集群方式部署&#xff0c;告警生成是通过一致性哈希&#xff08;哈…

墨尔本python培训班_墨尔本大学商业专业

澳大利亚墨尔本大学作为国际知名的高等教育学府&#xff0c;一直以来在各个专业领域都有着十分出色的表现。墨尔本大学商业专业在最近几年逐渐受到广泛的关注&#xff0c;每年申请留学的人数不断增加。墨尔本大学商业专业是一门综合性的专业课程&#xff0c;该专业毕业生的就业…

墨尔本学计算机硕士专业,2020年墨尔本大学计算机硕士详细介绍

墨尔本大学计算机硕士课程中被ACS(澳大利亚计算机协会)认证的课程&#xff1a; (1)Master of Information Systems (12 subject program) (CRICOS duration: 78 weeks): 学制为1.5年&#xff0c;2月和7月开学;此课程对申请人的本科专业背景无限制性要求&#xff0c;但是要求有一…

墨尔本计算机专业本科几年,墨尔本大学本科计算机科学与软件如何

原标题&#xff1a;墨尔本大学本科计算机科学与软件如何 墨尔本大学本科计算机科学与软件如何 墨尔本大学的计算机科学软件属于研究性项目,将为学生提供承接研究项目的机会,同时也会学习一些职业技巧相关的授果型科目。这个项目将为继续PhD深造提供一条捷径。职业发展:应用程序…

墨尔本大学 计算机科学,计算机科学墨尔本大学

计算机正在改变世界和我们的生活&#xff0c;计算机技术也在不断发展。墨尔本大学计算机科学硕士项目将教授学生一系列专业的知识&#xff0c;以应对计算机技术的不断革新。墨尔本大学计算机科学硕士项目为学生在软件设计&#xff0c;网络安全&#xff0c;信息架构以及编程方面…

关于有朋友遇到的使用 ChatGPT 获得 SAP 相关问题答案不够准确的困扰和我的解答

笔者的 SAP 开发技术交流群里&#xff0c;有朋友提问&#xff1a; 求教一下&#xff0c;哪位大侠知道查看主配方(事务代码C203)的界面里面&#xff0c;那个工序的资源字段是怎么取出来的&#xff08;从哪个数据表来的&#xff09;&#xff1f;多谢 这个朋友反馈&#xff0c;在他…

高考选专业

各省高考成绩已出&#xff0c;又到一年高考季。张雪峰提到&#xff1a;“普通家庭不要光谈理想&#xff0c;也要谈落地。”志愿怎样填报、选专业还是选学校、什么专业好就业、高考志愿主要看什么&#xff1f;针对这些疑问&#xff0c;你对正在选志愿的毕业生们有什么建议吗&…

专家意见何处寻:AI扮演领域专家角色为你答疑解惑

当我们寻求意见或建议时&#xff0c;ChatGPT是一个非常有用的工具。 作为通用的语言模型&#xff0c;ChatGPT 可以提供关于各种话题的建议和意见&#xff0c;如日常生活、工作、学习、人际关系、心理健康、科技和互联网、旅行和休闲、财务和投资、健康和医疗&#xff0c;以及环…

亚马逊跨境电商美国站店铺选品数据分析表,亚马逊美国站店铺产品上架教程

这几年随着跨境电商的逐步火热&#xff0c;越来越多人加入了这个大行业&#xff0c;而亚马逊作为跨境电商最大的渠道自然也是遭到最多的重视&#xff0c;亚马逊美国站点是亚马逊所有站点中市场份额最大的一个站点&#xff0c;今天咱们就来评论下亚马逊美国站什么产品最热销。 ​…

面向 Web 开发人员的 50 个 ChatGPT 提示

使用 ChatGPT 释放您的 Web 开发潜力&#xff01;在本文中&#xff0c;我们提出了 50 个引人入胜的提示&#xff0c;它们将激励和挑战各个级别的 Web 开发人员。无论您是经验丰富的编码员还是刚刚开始编码之旅&#xff0c;这些发人深省的问题都会激发您的创造力&#xff0c;加深…