要想赚钱,AI模型该大该小?贾扬清:论AI模型经济学的技巧

卖模型就像感恩节卖火鸡,快才能赚钱。

最近的AI社区,关于模型规模的讨论有些活跃。

一方面,此前在大模型开发奉为“圣经”的Scaling Law,似乎正在褪去光环。去年大家还在猜测GPT-5的规模“可能会大到想不到”,现在这种讨论几乎绝迹。大神Andrej Karpathy,则是在感慨大模型规模正在“倒退”。

另一方面,近期市场上性能优秀的小型模型层出不穷,参数规模、任务处理、反应速度、安全性能,各公司在不同方面卷了又卷。

究竟是往大做探索极限,还是往小做迎合市场?

这最终汇总成一个问题:在这样模型快速更迭的市场中,要怎么才能把LLM模型的商业价值最大化?

1

唯快不破的模型业态

最近发起讨论的是X.ai创始成员之一的Toby Pohlen。他认为如果模型以指数级速度改进,那么训练模型的价值也会以指数级速度折旧。这也导致人们需要赶在模型更迭前就迅速采取行动获取商业价值,一旦模型产生更新,上一代模型就基本一文不值了。

Toby的这番言论深得老板Elon Musk之心,大笔一挥打了一个“100分”。

贾扬清也参与到了这场讨论中来,他用感恩节火鸡做了一个有趣的比喻。他提出,售卖模型就像是感恩节火鸡促销,必须在感恩节前夕抓紧时间售卖,避免在感恩节到来后的贬值。新模型的技术更新就是一个又一个感恩节,只有销售得更快才能赚到更多的利润。

(emmm…如果对火鸡不好了解,换成中秋节前抢月饼的故事大家或许应该容易理解一些?)

评论区也有不少人表达了对此观点的赞同。

有人说只要不断地开发新产品和迭代新模型,就能从中持续获得商业价值。

还有人说,模型改进的频率将直接决定模型本身的商业价值。

但是,模型的商业价值由什么决定,又该如何实现?

2

模型发展在走CNN老路吗?

模型必须做小,用起来才顺手。

比起大型模型,小型模型成本低应用便利,更能收获商业市场的青睐。贾扬清就发现,行业趋势在于研发和使用尺寸更小性能强大的模型,人们也更愿意把规模参数在7B-70B之间的中小型模型作为商业使用的选择。

作为前大模型时代的亲历者,贾扬清在当下LLM模型市场上嗅到了熟悉的味道,先变大再变小变高效,这和CNN时期的模型发展简直一模一样。

贾扬清还对CNN的发展历程做了一个简单的介绍。

首先是2012年,AlexNet开启了模型大小增长的序幕。2014年的VGGNet就是一个规模较大的高性能模型。

到了2015年,模型尺寸开始缩小。GoogleNet 将模型大小从GB降至MB,缩小了100倍,还同时保持了良好的性能。同年面世的SqueezeNet也遵循了追求更小尺寸的趋势。

在此之后,模型发展的重点转移到了维持平衡。比如如 ResNet(2015)、ResNeXT(2016)等模型都保持了一个适中的规模,注重计算效率。

贾扬清还介绍了CNN的一个有趣的应用,Google的MobileNet(2017),占用空间小性能优越,还具有出色的特征嵌入泛化。

最后,贾扬清引用了Ghimire 等人在《高效卷积神经网络和硬件加速调查》里的一张图:

他还进一步发问,LLM模型未来会遵循和CNN一样的发展趋势吗?

3

大型模型的盈利思考

不过贾扬清也补充道,虽然行业趋势是模型小型化,但并不意味着号召大家放弃尺寸更大的模型。

但这随之而来的是另一个问题:大型模型的成本会更高。

此前也有人提出质疑,对大型模型服务商的运营成本和营运收益做了简单的计算,每天8张H100显卡运营节点的成本约为1000美元,每天可以提供2600万token的服务,但按Llama 405B每一百万token 3美元的价格,怎么算都是亏本的,无法盈利的大型模型不会被市场抛弃吗?

贾扬清表示,哎你说这个我就不困了,我熟我来说:)

贾扬清认为,虽然每个请求大约每秒输出30个token,但通过批量处理(同时处理多个请求)可以显著提高总吞吐量,可以达到比单个请求高出10倍或更高的吞吐量。

同时他还指出,每秒大约30个token指的是输出token,大模型对于输入token的处理速度更快,这也增加了处理的总token数,大模型通常对输入和输出分别计费,也正是这个道理。

在后续的另一个回复,贾扬清做了更详细的量化计算:

批量输出速度:单并发405b推理通常有每秒30个token的输出速度。合理的并发可以使总吞吐量提高10倍,达到每秒300个token的输出吞吐量。

输入token:输入token也被计费,通常输入token的数量远大于输出token。一个常见的聊天机器人应用可能有2048个输入token和128个输出token。假设输入输出token比率为10:1,那么每秒300个输出token的处理量相当于每秒3000个输入token。

价格:每天总共处理285,120,000个token,按当前Lepton价格每百万token2.8美元计算,收入为798.34美元。

机器成本:以lambda按需价格为基准,每张H100卡每小时3.49美元,8张H100卡一天的成本为670.08美元。

收入798.34美元,成本670.08美元,因此通过整合多种技术方法,在合理流量下(像Lepton这样的大模型技术服务商)是可能盈利的。

当然,这只是一个简单的推算,实际的盈利还会受到流量稳定性、计费方式、按需使用GPU的机器成本控制、解码、提示缓存以及其他因素的影响。

但某种程度上说,类似深度学习时代对CNN的不断优化,在大模型时代,也需要技术人员对于模型进行种种优化,来保证性能提高的同时不断降低成本,这正是贾扬清看好的创业路线。

4

One more thing

我们不妨再多讨论一下,对于贾扬清这样的AI Infra创业者,模型大小的潮流变化对他的商业模式有什么影响?

这个问题,要分不同情况分析。

如果模型参数量越大,提供模型服务的门槛越高(参考Llama 405B),其客单价自然也就越大;

另一方面,由于很多小模型实际是在大模型的基础上蒸馏而得到,模型小了,所需的计算资源并没有等幅度减少

由于较小的模型更容易部署在不同的设备和平台上,这可能会带来应用场景的增加,虽然客单价可能降低,但在需求数量上的增加反而可能使得总收入增加;

对于贾扬清来说,META的开源路线使得贾扬清的服务对象扩大,因此开源对他来说更有利。

看来不管未来模型规模怎么不变化,贾扬清都有机会凭借技术升级稳坐钓鱼台。这有点像之前的中国股市,不管什么消息,都是“利好茅台”啊。

这恐怕就是贾扬清最近在推特上为什么这么活跃发表看法的原因?你看好贾扬清这种AI Infra的创业路线吗?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/391808.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

推荐一款界面优雅、功能强大的 .NET + Vue 权限管理系统

目录 前言 项目简介 项目特点 项目预览 项目演示 1、系统登录 2、系统首页 3、系统页面 4、插件示例 5、移动端 项目地址 总结 前言 今天推荐一款用 .NET 和 Vue3 实现的开源权限管理系统。它的界面清爽干净,功能强大,还具备灵活的角色权限分配…

19 注意力机制

目录 1.注意力机制从心理学的角度出发注意力机制非参注意力池化层Nadaraya-Watson 核回归:总结注意力汇聚:Nadaraya-Watson 核 代码实现非参数注意力汇聚(非参数注意力池化)注意力权重参数注意力汇聚(参数注意力池化)2.注意力分数如何将 key 和 value 拓展到更高的维度掩…

Bug 解决 | 后端项目无法正常启动,或依赖服务连接失败

目录 1、版本问题 2、依赖项问题 明明拷贝的代码,为什么别人行,我启动就报错? 这篇文章我就理一下最最常见的项目启动报错的两种原因! 1、版本问题 比如明明项目的 Java 版本是 8,你非得拿 5 跑?那不是…

C++基础知识(入门章)

绪论 历经千辛万苦,我们终于来到了一个全新的板块---C。本期的内容主要是关于C的一些基础知识的初步了解。让我们一起努力,克服编程路上的艰难险阻,迎接属于自己成功的彼岸~ C的发展历史 1979年 C的起源可以追溯到1979年,当时B…

基于K210智能人脸识别+车牌识别系统(完整工程资料源码)

运行效果: 基于K210的智能人脸与车牌识别系统工程 目录: 运行效果: 目录: 前言: 一、国内外研究现状与发展趋势 二、相关技术基础 2.1 人脸识别技术 2.2 车牌识别技术 三、智能小区门禁系统设计 3.1 系统设计方案 3.2 …

卓越运营必备神器:规划复杂项目、使用标准的项目模板,看Minitab Workspace!

可确保过程与产品卓越性的可视化工具 您是否知道Minitab Workspace是专门为Minitab统计软件配套而设计的? 您和您的团队或许会面临以下相关问题: 1) 在规划复杂项目上存在困难,如业务优化项目; 2) 因完成工作需要而使用多种未知品牌的产品; 3) 缺乏…

一款好用的开源网站内容管理系统

今天给大家介绍的是一款开源网站内容管理系统(灵活、易用,性能良好、运行稳定,轻松管理建设网站) 官网:https://www.ujcms.com/ 介绍 客户端兼容Edge(Chromium版)、谷歌浏览器(Chro…

AI称重收银一体秤

系统介绍 专门为零售行业的连锁店量身打造的收银系统,适用于常规超市、生鲜超市、水果店、便利店、零食专卖店、服装店、母婴用品、农贸市场等类型的门店使用。同时线上线下数据打通,线下收银的数据与小程序私域商城中的数据完全同步,如商品…

MMC和eMMC的区别

MMC 和 eMMC 的区别 1. MMC MMC(MultiMediaCard)是一种接口协议,定义了符合这一接口的内存器,称为 MMC 储存体或 MMC 卡。它是一种非易失性存储器件,广泛应用于消费类电子产品中。 1.1 外观及引脚定义 MMC卡共有七个…

LLM之本地部署GraphRAG(GLM-4+Xinference的embedding模型)(附带ollma部署方式)

前言 有空再写 微软开源的GraphRAG默认是使用openai的接口的(GPT的接口那是要money的),于是就研究了如何使用开源模型本地部署。 源码地址:https://github.com/microsoft/graphrag 操作文档:https://microsoft.git…

nextjs 实现TodoList网页应用案例

参考: https://nextjs.org/ Next.js 是用于网络的一种 React 框架。一些世界上最大的公司在使用它,它能够借助 React 组件的力量让您创建高质量的网络应用程序。 1、创建项目: 另外注意:pages与app路由存在冲突,如果有…

Jenkins未授权访问漏洞 *

漏洞复现 步骤一:使用以下fofa语法进行产品搜索.... port"8080" && app"JENKINS" && title"Dashboard [Jenkins]" 步骤二:在打开的URL中...点击Manage Jenkins --> Scritp Console在执行以下命令..…

leetcode数论(​3044. 出现频率最高的质数)

前言 经过前期的基础训练以及部分实战练习,粗略掌握了各种题型的解题思路。现阶段开始专项练习。 描述 给你一个大小为 m x n 、下标从 0 开始的二维矩阵 mat 。在每个单元格,你可以按以下方式生成数字: 最多有 8 条路径可以选择&#xff1…

通俗易懂!495页看漫画学Python入门教程(全彩版)Git首发破万Star

前言 在编程的世界里,Python无疑是一颗璀璨的明星。从最初作为打发圣诞节闲暇时间的项目,到如今成为最受欢迎的程序设计语言之一,Python以其简洁、易学、强大的特点吸引了无数编程爱好者。然而,对于初学者来说,编程的…

【redis 第八篇章】链表结构

一、数组和链表 1、数组 数组会在内存中开辟一块连续的空间存储数据,这种存储方式有利也有弊端。当获取数据的时候,直接通过下标值就可以获取到对应的元素,时间复杂度为 O(1)。但是如果新增或者删除数据会移动大量的数据,时间复…

范伟:大叔这句是咱俩合唱的,赵本山:我唱不上去!——小品《门神》(下)的台词与解说

范伟:大叔这句是咱俩合唱的,赵本山:我唱不上去! ——小品《门神》(下)的台词与解说 (接上) 范伟:大叔快快快走 赵本山:干啥 范伟:上咱家过年…

苹果手机锁屏怎么设置?3个技巧,教你快速设置

在科技与创意交织的时代,苹果手机以其简约而不失优雅的设计,成为了我们日常生活中不可或缺的一部分。而作为手机的【第一印象】,锁屏界面更是彰显用户个性的关键所在。那么,苹果手机锁屏怎么设置呢?接下来,…

AI生成PPT?三款工具让总结更轻松

哎呀,职场新人们,你们是不是也跟我一样,刚开始做PPT的时候,感觉像是走进了一个大迷宫,脑袋里装满了想法,但就是不知道怎么把它们变成一页页漂亮的幻灯片?别急,今天咱们就来聊聊三个超…

【C++】C++特性揭秘:引用与内联函数 | auto关键字与for循环 | 指针空值

C语法相关知识点可以通过点击以下链接进行学习一起加油!命名空间缺省参数与函数重载 本章将分享C增加的几种常见特性,主要内容为引用与内联函数 | auto关键字与for循环 | 指针空值,这些知识看似很多,实际也不少。本章篇幅长&#…

C# Unity 面向对象补全计划 七大原则 之 里氏替换

本文仅作学习笔记与交流,不作任何商业用途,作者能力有限,如有不足还请斧正 本系列作为七大原则和设计模式的进阶知识,看不懂没关系 请看专栏:http://t.csdnimg.cn/mIitr,尤其是关于继承的两篇文章&#xff…