大模型争霸的下一站:不仅是超越GPT-4,更是寻求模型之间的平衡应用

文 | 智能相对论

作者 | 沈浪

知名科学杂志《Nature》发表了一篇关于大模型规模参数大小争议的文章《In Al, is bigger always better?》——AI大模型,越大越好吗?随着大模型应用走向实践,这一问题不可避免地成为了当前AI行业发展的焦点与争议。

有人认为,大模型当然是越大越好,参数越大,性能越优。也有人认为,小模型更好,消耗更小,更能精准地解决专业问题。两相对比之下,各有各的道理,悬而未决,究竟什么才是AI大模型发展的出路?

这一问题或许在日前商汤科技举办的技术交流日活动上有所解答。在活动现场,商汤科技发布了行业首个“云、端、边”全栈大模型产品矩阵,以满足不同规模场景的应用需求,对大模型的场景应用提出了新的思路,并且全新升级了“日日新SenseNova 5.0”大模型体系,综合能力全面对标GPT-4 Turbo。

当然,在当前节点上,领先的意义已经不仅仅是超越GPT-4,更是探索出能解决实际应用问题的有效路径。

01、离谱or靠谱?日日新端侧大模型“暴打”GPT-4

在技术交流日活动的现场,商汤科技以一个很有趣的画面阐释了大模型与小模型之间的差别。基于拳皇游戏的画面演示,商汤科技将自家的SenseChat-Lite 版本日日新端侧⼤模型与GPT-4进行PK。

一开始,GPT-4还能略占上风,但是SenseChat-Lite出拳速度更快,随后各种连招打到他根本反应不过来,只得被商汤科技的模型“暴打”,直接K.O出局。

这一结局似乎太离谱了?商汤科技对此做了解释:实际上其中的差距并非模型能力强弱问题,而是在不同的适用场景之下小模型决策速度快。当大模型还在计算的时候,小模型已经完成了判断并且出拳了,而且实实在在打到了对手身上。

正所谓,“天下武功,唯快不破”!对比大模型,小模型在具体的场景应用中有着更明显的决策优势。

因此,业内正在形成一个全面的共识:在实际应用中,大模型并非越大越好,而是得看具体场景需求。前不久,美国AI公司Anthropic发布Claude 3系列模型,一度超越GPT-4,登顶全球最强大模型。其中Claude 3系列就给出了不同量级的模型产品,包括Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,以便适用于不同的企业和场景。

同样的,基于这一思路,商汤科技也在搭建完善的基模型体系与小模型系统方案,并发布了一系列的垂类大模型和端侧大模型。其中,SenseChat-Lite版本端侧大模型就可以面向手机、平板、VR 眼镜、智能汽车等提供轻量、高效的大模型能力,结合端云解决方案,及时适应变化的环境和需求,保持高性能和准确性。

对比来说,中国更注重实践。商汤科技在这个思路上给出的解决方案更具有主动性和服务意识以及更有实践价值。具体的,商汤端侧大模型不仅是参数量级小,还讲究端侧部署与端侧处理能力的强化,在解决实际问题上响应更快速。

与此同时,商汤科技还面向金融、代码、医疗、政务等多个领域推出了边缘产品“商汤企业级大模型一体机”,在实际场景应用中更能满足专业化需求,主动贴合客户需求。比如,“大医”医疗健康大模型一体机就可以在医疗机构内部一键部署大模型应用,实现“开箱即用”,并有效针对智能问诊、导诊、病历结构化、影像报告解读等场景,支持智能调整回复内容的语言风格、详略程度、格式要求等。

当然,这也是目前商汤科技在AI大模型领域领先行业的关键点。同样的思路,以小模型为应用焦点,商汤比别人多走了几步,提出了软硬兼顾的解决方案。

02、在尺度定律之下,没有永恒的“最强”,唯有“日日新”

从经济性而言,小模型更利于企业应用与解决实际问题。那么,是否对于AI行业而言,就不需要训练大模型了?

实则不然。

在技术交流日活动现场,商汤科技提到了一个同为业内共识的理论:尺度定律。在普遍的认知中,以尺度定律为参考,随着模型的参数变大、数据量变大、训练时长加长,则算法性能会越来越好。

OpenAl于2020年曾发布一篇论文《Scaling Laws for Neural Language Models》,其中也有类似的观点,即模型性能随着模型参数大小的增长而变好。因此,在后续的大模型迭代中,OpenAI通过构建一个巨大的海量数据集,再简单增加GPT模型的深度,就做出了具有惊人的涌现能力的大模型产品。

对此,很多厂商也作了相关验证,包括谷歌、商汤科技等。其中,谷歌曾精调了三个尺寸的Minerva模型,分别使用了80亿,620亿和5400亿个参数的预训练PaLM模型。

结果发现,Minerva的性能随着规模的扩大而提高。在整个MATH数据集上,最小模型的准确率为25%,中型模型达到43%,最大模型突破50%大关。

由此,基于尺度定律的认知,他们发现自家的模型产品在一定测试级上超越GPT-4的能力,并非不可能。如今,商汤科技发布的最新的“日日新SenseNova 5.0”大模型体系,其性能就超越了GPT-4。

其中,日日新·商量大模型5.0主模型在语言、知识、推理、数学、代码等领域的能力,在主流客观评测上就达到或超越了GPT-4 Turbo,在聊天、多轮对话、信息提取、写作等场景能和GPT-4 Turbo相媲美。

更值得一提的是,日日新·商量多模态大模型的图文感知能力达到了全球领先水平,在多模态大模型权威综合基准测试MMBench中综合得分排名首位,并在多个知名多模态榜单MathVista、AI2D、ChartQA、TextVQA、DocVQA、MMMU 取得领先成绩。

换句话说,在尺度定律的认知下,GPT-4被超越是迟早的事情,AI大模型领域没有永恒的“最强”。

当然,若要登顶最强,虽说可行,但绝不简单。大模型的参数争议,其中就有能耗的问题。谷歌曾坦言,PaLM的训练在2个月内消耗了大约300个美国家庭一年的电力消耗,其中所需要的算力、数据等基础设施绝非常规企业可以负担。

在这一点上,商汤科技秉持“大模型+大算力”的“双轮驱动”战略布局又一次为其拓宽了道路。其中,SenseCore商汤大装置作为商汤科技前瞻决策所打造的高效率、低成本、规模化的新一代AI基础设施,可以支撑超过20个千亿超大模型同时训练,并支持万亿参数大模型的全生命周期生成,为大模型的打造提供了非常关键的支撑。

简单来说,虽说有尺度定律作为理论支持,但是以SenseCore商汤大装置为代表的大算力才是商汤科技能超越GPT-4的底气。从这个角度来看,商汤科技做AI,比大多企业要更加纯粹且彻底。

03、大模型的最优解,是场景平衡

从国内外的实验与实践来看,模型的大小之争意义不大,离开基础理论和场景应用去抛弃任何一方都不可取。因此,目前主流的AI厂商在迭代和发布系列模型时,往往都会推出主模型与小模型以及垂类专业模型,根据场景需求按需提供服务。

这一点将在接下来的时间里拉开专业AI服务商之间的差距。目前,日日新SenseNova5.0大模型体系采用了混合专家模式,这样做的目的在于通过将模型分割成多个具有专门功能的模块,使得模型在推理过程中能更有效地利用计算资源,并可能提高模型的泛化能力和应对复杂任务的性能。

具体来看,商汤琼宇发布的3D高斯泼溅技术,就具备轻量化的web渲染能力,可以产生更轻量的模型资产,使城市级三维模型的构建和编辑重建效果更加真实,成本更低,也可以应用在更多场景。

这是混合专家模式思想在实际应用中的体现,通过不同技术和模型组件之间的配合,实现了对特定任务定制化处理和资源优化,从而加速大模型在不同场景中的应用,实现AI普惠。目前,琼宇已服务客户超过60个,实现了15个城市120多种场景的重建。

因此,当我们把目光投递到实际中的场景问题,就会发现大模型和小模型均有用武之地,问题则在于如何去平衡地调配资源,实现最优解。由此来看,商汤科技对混合专家模式的应用,可以视为是一种领先行业的熟练决策。

未来不属于大模型或小模型,而是大小模型之间的平衡。因此,“AI大模型是否越大越好”类似的问题不必纠结,但需要面对,即如何去打造大模型,又如何把大模型的能力调配出小模型服务好市场,会是各大厂商接下来的必修课程。

*本文图片均来源于网络 

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

•AI产业新媒体;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能 十万个为什么》

•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/320365.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

迅雷永久破解

链接:https://pan.baidu.com/s/1ZGb1ljTPPG3NFsI8ghhWbA?pwdok7s 下载后解压 以管理员身份运行绿化.bat,会自动生成快捷方式,如果没有可以在program中运行Thunder.exe

【python】条件语句与循环语句

目录 一.条件语句 1.定义 2.条件语句格式 (1)if (2)if-else (3)elif功能 (4)if嵌套使用 3.猜拳游戏 二.循环语句 1. while循环 2.while嵌套 3.for循环 4.break和conti…

AI图书推荐:AI在语言学习教育领域的应用和挑战

这本书《AI在语言学习教育领域的应用和挑战》(AI in Language Teaching, Learning, and Assessment)由Fang Pan编辑,出版于IGI Global,主要探讨了人工智能(AI)在语言教育领域的应用、挑战以及潜在的益处。 …

JS基础:JS语法规范详解(最全!)

你好,我是云桃桃。 一个希望帮助更多朋友快速入门 WEB 前端的程序媛。 云桃桃-大专生,一枚程序媛,感谢关注。回复 “前端基础题”,可免费获得前端基础 100 题汇总,回复 “前端基础路线”,可获取完整web基础…

C++:自增运算符(++)重载

自增运算符()分为前置自增和后置自增,它们两者主要的区别是:返回的值不同,以及执行自增操作的顺序不同。 前置自增运算符 : 前置自增运算符首先将操作数加1,然后返回自增后的值。 这意味着如果…

CNN笔记详解

CNN(卷积神经网络) 计算机视觉,当你们听到这一概念的是否好奇计算机到底是怎样知道这个图片是什么的呢?为此提出了卷积神经网络,通过卷积神经网络,计算机就可以识别出图片中的特征,从而识别出图片中的物体。看到这里充…

盘一盘接口测试的那些痛点,你现在会解决了吗

前言 说到接口测试,想必大家一定不会陌生。接口测试就是测试系统组件间,接口对接是否顺畅的一种测试。包括测试数据能否交换、能否传递、能否正常控制管理过程,以及系统间的相互逻辑依赖关系,等等。 由于接口测试主要是检测系统…

2024网络安全面试问题宝典(4万字)

2024网络安全厂商面试问题宝典(4万字) 目录 评分标准网络基础问题 TCP建立连接要进行3次握手(syn-syn,ack-ack),而断开连接要进行4次(fin-ack-fin-ack)TCP,UDP区别:安全常用的协议…

数据库基础--MySQL多表查询之联表查询

联表查询 定义:多张表联合在一起查询,例如学生信息与学生班级表、部门与员工表 创建两张表,主表与从表 CREATE TABLE TestMain(id INT Not NULL AUTO_INCREMENT,nameVARCHAR(10),introduction VARCHAR(255),PRIMARY KEY(id) ); CREATE TAB…

自动驾驶主流芯片及平台架构(二)特斯拉自动驾驶芯片平台介绍

早期 对外采购mobileye EyeQ3 芯片摄像头半集成方案,主要是为了满足快速量产需求,且受制于研发资金不足限制; 中期 采用高算力NVIDIA 芯片平台其他摄像头供应商的特斯拉内部集成方案,mobileye开发节奏无法紧跟特斯拉需求&#xff…

select,poll,epoll

在 Linux Socket 服务器短编程时,为了处理大量客户的连接请求,需要使用非阻塞I/O和复用,select,poll 和 epoll 是 Linux API 提供的I/O复用方式。 \selectpollepoll操作方式遍历遍历回调底层实现数组链表哈希表IO效率每次调用都进…

ROS 2边学边练(43)-- 利用GTest写一个基本测试(C++)

前言 在ROS(Robot Operating System)中,gtest(Google Test)是一个广泛使用的C测试框架,用于编写和执行单元测试。这些测试可以验证ROS节点、服务和消息等的正确性和性能。 如果我们需要在写的包中添加测试&…

kubectl_入门_service详解

Service 我们知道 Pod 的生命周期是有限的。可以用 ReplicaSet 和Deployment 来动态的创建和销毁 Pod,每个 Pod 都有自己的 IP 地址,但是如果 Pod 重建了的话那么他的 IP 很有可能也就变化了。 这就会带来一个问题:比如我们有一些后端的 Po…

Flink时间语义 | 大数据技术

⭐简单说两句⭐ ✨ 正在努力的小叮当~ 💖 超级爱分享,分享各种有趣干货! 👩‍💻 提供:模拟面试 | 简历诊断 | 独家简历模板 🌈 感谢关注,关注了你就是我的超级粉丝啦! &a…

【基于MAX98357的Minimax(百度)长文本语音合成TTS 接入教程】

【基于MAX98357的Minimax(百度)长文本语音合成TTS 接入教程】 1. 前言2. 先决条件2.1 硬件准备2.2 软件准备2.3 接线 3. 核心代码3.1 驱动实现3.2 代码解析 4. 播放文本5. 结论 视频地址: SeeedXIAO ESP32S3 Sense【基于MAX98357的Minimax&am…

redis中的双写一致性问题

双写一致性问题 1.先删除缓存或者先修改数据库都可能出现脏数据。 2.删除两次缓存,可以在一定程度上降低脏数据的出现。 3.延时是因为数据库一般采用主从分离,读写分离。延迟一会是让主节点把数据同步到从节点。 1.读写锁保证数据的强一致性 因为一般放…

监视器和显示器的区别,普通硬盘和监控硬盘的区别

监视器与显示器的区别,你真的知道吗? 中小型视频监控系统中,显示系统是最能展现效果的一个重要环节,显示系统的优劣将直接影响视频监控系统的用户体验满意度。 中小型视频监控系统中,显示系统是最能展现效果的一个重要…

Linux字符设备驱动-详解与实操:驱动架构、设备树、Pinctrl子系统和GPIO子系统、platform、设备树下的platform

如何编写一个驱动程序: (1)确定主设备号 (2)定义自己的file_operations结构体: 包含对应的open(drv_open)/read(drv_read)等设备操作函数,需要到内核中去注册 (3)实现…

【微服务】服务保护(通过Sentinel解决雪崩问题)

Sentinel解决雪崩问题 雪崩问题服务保护方案服务降级保护 服务保护技术SentinelFallback服务熔断 雪崩问题 在微服务调用链中如果有一个服务的问题导致整条链上的服务都不可用,称为雪崩 原因 微服务之间的相互调用,服务提供者出现故障服务的消费者没有…

与Apollo共创生态:让智驾技术为各行业发展赋能

目录 一、引言 二、Apollo七周年大会主要内容回顾 2.1活动回顾链接 2.2Apollo项目介绍 2.2.1Apollo项目发展介绍 2.2.2实验用车传感器介绍 2.2.3硬件连接概述 2.2.4软件概述 2.3Apollo X 企业自动驾驶解决方案介绍 2.3.1Apollo X 企业自动驾驶解决方案优势 2.3.2 Ap…