国产大模型狂飙,谁能率先做出第一个中国版GPT

热火烹油的大模型赛道打起了“嘴仗”。 

搜狗前CEO王小川评价百度创始人李彦宏的采访发言称:“你们采访的可能是平行世界的他,不是我们这个世界里的。” 

而针对王小川的评论,百度集团副总裁、搜索平台负责人肖阳又回应道:“王小川脱离一线太久,确实跟我们不在一个宇宙,自然对国内人工智能技术的发展缺乏了解。” 

意外的是,王小川在14日凌晨又“嘲讽”了一把,称对 方是“脱离一线15年的人,去怼离开1.5年的人”。 

这场争论也暴露出创业派与大厂间微妙的竞争关系。 

毋庸置疑,大模型技术彻底点燃了科技圈的热情,创业者忙着招兵买马,生怕错过了新风口;一级市场关于大模型的投融资热度攀升,不少FA们甚至跑去B站开始恶补AI知识。 

政策端也在吹来暖风,北京市经济和信息化局发布的《2022年北京人工智能产业发展白皮书》显示,今年,北京将支持头部企业打造对标ChatGPT的大模型。 

热闹只是硬币的A面。 

无论是忙着官宣大模型的科技大厂,还是广发英雄帖的创业公司,身处这股浪潮之中的人们都在思考一些关键问题:率先做出第一个中国版GPT的是谁?还有多久才能做出来?市场格局又会是发生怎样的变化? 

这些问题都难以给出正确的答案,事实上,也没有人能给出准确的回答。毕竟,人们总是高估一项科技所带来的短期效益,却又低估它的长期影响。 

本文将围绕当下中国的大模型竞争现状,基于行业资料与研究,主要回答三个问题: 

1. 为什么国内科技公司要纷纷竞逐大模型?

2. 火热背后,中国科技公司究竟缺什么?

3. 中国科技公司“大模型之战”的走向会是什么?

为什么极客们都爱大模型?

理解中国科技巨头们的“大模型焦虑”,一张产品发布时刻表就够了。 

在OpenAI发布GPT-4大模型后,百度用“Demo演示”的形式正式发布文心一言。同样在3月,53岁的周鸿祎决定“把刚出生的孩子抱出来给大家看看”,他推出360的大模型产品,甚至仓促到名字都要现场取。 

随后的一个多月里,科技巨头、创业公司与高校研究院们展开了一轮关于“大模型”的军备竞赛,整个4月可以被称为“大模型的发布月”,继百度之后,华为、商汤、阿里已在4月亮出自己的大模型产品。 

最新的消息是,京东计划在今年发布新一代产业大模型“言犀”,被视为“京东版”ChatGPT。 

大模型也成为了互联网大佬扎堆二次创业的热门赛道。 

原美团联合创始人王惠文、创新工场CEO李开复、前京东AI掌门人周伯文、前阿里技术副总裁贾扬清等均入局创业。前搜狗CEO王小川的百川智能已完成了5000万美元融资,王小川给了自己一个DDL:“今年年底做到国内最好的”。 

一位业内人士这样形容当下百花齐放的图景:“(这波创业)很像2000年左右的互联网创业潮。” 

普通读者们很难理解科技圈对大模型的拥趸,毕竟类似的创业潮在元宇宙、XR行业也都复现过。但如果深入理解人工智能的发展历史与传统AI时代的困境,就能理解为何这群极客们如此热爱大模型。 

关于大模型的定义,OpenAI创始人Altman与李开复更愿意将大模型定义为“一种新技术平台”,而学界则将“大模型”对比“小模型”,定义为一种“基于大量数据训练的、拥有巨量参数的模型”,这种模型能适应广泛的下游任务。 

在AI1.0时代,比起创业者对AI智能化的疾呼,大多数人对人工智能只停留在一些单一场景产品端的理解。 

例如人工智能客服、人工智能质检等,上述场景都是针对一项任务具体开发一个专用小模型,并不具备“理解能力”。就像周鸿祎将此前的人工智能产品形容为“人工智障”,在他看来:“在GPT之前,从来没有一个人工智能的产品能真正的理解我们这个世界。” 

从人工智障到人工智能的进化,大模型的出现意味着人们正式进入到AI2.0时代,这背后是大模型的涌现性使然。 

涌现是人工智能领域经常会被提及到的概念,代表一种从量变到质变的过程,当数据规模足够大,参数达到千亿级,即使在没有专门训练过的领域,AI也能涌现出知识理解和逻辑推理能力,华东政法大学人工智能与大数据指数研究院将“涌现性”定义为一个“多种技术融合的结果”:“(大模型)有效集成自然语言处理等多个人工智能核心研究领域的多项技术,实现1+1>2的融合式涌现。” 

换言之,大模型有望解决“人工智能如何理解世界”的问题,实则提供了一条可能迈向AGI(通用人工智能)的可能性。 

另一方面,大模型的通用性也在激发更多的商业图景,解决了AI1.0时代的诸多问题。 

在上一波AI创业潮中,总结AI企业所面临的问题主要两点:一是成本问题,清洗与标注海量的数据需要耗费巨大的成本,商汤科技联合创始人、副总裁杨帆曾表示,对于每一个新场景,公司都要重新收集新数据,搭建定制化模型。 

这种开发模式很像“小作坊”,不但解决问题的成本极高,开发模式也十分低效。 

在实际落地过程中,应用场景的复杂性导致AI应用的“孤岛化”,李开复曾提到一个例子:“如果今天一家银行想做AI应用,但没有任何数据可以用来冷启动,还要收集、清洗、标注数据,再去做模型,整个过程代价都很大。” 

而当大模型已成为上层应用的技术底座,可以实现在AI1.0时代无法实现的跨领域部署,支撑终端、平台、系统等产品应用落地。这种像搭积木一样“组合创新”的可能性,以及商业化的能力就像ChatGPT一样,人们不仅发现,它可以深夜聊天,抚慰人心,还会写程序和讲故事。 

成本问题之外,并不具备通用能力的小模型,由于无法向行业进行推广与复用,难以形成规模效应,也就更难言盈利。 

这种“通用性”激发出诸多新的商业图景,可以将其理解为AI时代的“操作系统”,在降低开发成本的同时,人人都可以是开发者,由此发现与生产出新的产品与应用场景。 

找钱、找人、找应用场景

大模型竞赛的枪响之后,创投行业又复现“元宇宙”的热潮。 

有大模型企业1个月见的投资人相当于去年一整年。一级市场关于大模型的投融资热度攀升,不少FA们甚至跑去B站开始恶补AI知识,生怕错过一个好项目。 

但抢到这张通往新世界的“船票”并非容易,区别于AI1.0时代, 找钱、找人与找应用场景的焦虑,在这一波竞逐中,体现的尤为明显。 

首先是找钱。 参考多位创业者的观点,2亿美元是行业普遍认为的启动资金。拆解来看,以硬件成本为例,研究机构TrendForce在一份报告中指出,要处理1800亿参数的GPT-3.5大型模型,需要的GPU芯片数量高达2万颗,未来GPT大模型商业化所需的GPU芯片数量甚至会超过3万颗。 

仅在算力门槛上,很多创业企业便无力与大厂抗衡。 

因此,表面上热火朝天的大模型赛道,风大“鱼”贵,但实际投资人们心里也知道,仅靠几张PPT创新的时代过去了,投资既是要投靠谱的人,也要考虑赛道与具体的商业路径,毕竟,钱也一定要投在刀刃上。 

云启资本合伙人陈昱在接受《甲子光年》采访时就表示:“做大模型创业的公司要融到大钱不容易了。” 

英诺天使基金合伙人王晟曾表示,“我们也经常‘刷论文’,看到AI领域里很棒的论文,直接就去找作者了,看他是一个学霸,还是有创业潜质、业务没有商业化的潜力,如果合适,我们也会建议他创业并考虑投资。” 

比起AI1.0时代的纯科学家创业,AI2.0时代更像是一场互联网大佬与科学家们的“集体二次创业”。 

能够融到“大钱”的要么是有创始人经历或个人魅力背书,要么就是此前长期跟踪孵化,双方一直保持着良好的合作关系。 

比如,目前融资总额已达数亿元的澜舟科技是创新工场从0到1孵化出的企业,而由前京东技术委员会主席周伯文创立的衔远科技,背后的参投方启明创投等均是AI领域的长期捕手。 

其次,找到合适的人也并不容易,在这一点上,科技巨头与创业公司面临相同的处境。 在一档播客节目中,已宣布加入光年之外的北京智源人工智能研究院副院长刘江曾发出呼吁:“所有的同学,如果你是AI的顶级人才,或者有这样的人,欢迎来到光年之外。” 

“大数据+强算法+大算力”被视为支撑大模型落地的重要公式,大厂有算力,也有数据,能够提供标准化的产品,但算法背后对应的则是人才。大厂很难留住强算法人才的原因在于,大模型投入是一件长期主义的事,必定会面临与既有业务之间的冲突,从大厂出走的诸多大模型创业者的经历已然说明了这一点。 

而对创业公司而言,即便有首席科学家的支撑,找到合适的人也并不容易。 

聆心智能创始人、清华大学计算机科学与技术系长聘副教授黄民烈认为,如OpenAI这种技术见长的公司需要很多特别牛的工程技术人才。 

对创业企业而言,回到前述的融资环境下,无论是基于创始人的背景背书,抑或是资源合作,都需要长期积淀。 

同时,在强调生态的大模型赛道,创业型企业势必要面临来自投资方、合作方乃至竞对间的博弈,一个合适的伙伴不仅要在自己的细分领域内做到顶尖(懂技术+懂产品),还有随时保持战略的独立性,不轻易站队。 

最后,能否找到合适的应用场景,另辟赛道,并迅速建立护城河壁垒,这一问题也同样拷问着入局者。 

百度李彦宏将当前的大模型生态分为三类,他最看好应用层的市场机遇。 

第一类是新型云计算公司,云计算主流商业模式将会从IaaS变为MaaS(模型即服务)。

第二类是进行行业模型精调的公司,介于通用大模型和企业之间的中间,这类企业可以基于对行业的洞察,调用通用大模型能力,为行业客户提供解决方案。

第三类是应用层的企业,基于通用大语言模型开发应用服务,这可能才是真正的机会。

区别于国外专业化的分工,当前,国内的大模型赛道的创业模式主要分类是三类: 一类是聚焦基础层,对标OpenAI,发挥基础设施的作用。一类是锚定中间层,不需要如OpenAI一样花大钱做底层,掌握通用化能力,可以通过开源大模型做精调,让模型具备差异化能力,最终可以形成垂直类模型。还有一类就是调用大模型API的企业,专注开发大模型具体场景的应用,如Jasper。 

如果将大模型比喻成AI时代的电,那么基础层与中间层担任的都是“发电厂”的角色,需要极高的门槛,对资金、技术以及资源有严格的准入壁垒,大多也是大公司间的竞逐。 

百度、阿里、华为头部企业均采取“模型+工具平台+生态”三层共建模式的模式,推动业务的正向循环。 

大厂的竞逐中,也涌现出一些创业公司,既做大模型,又将其能力输出至垂直行业,形成定制化模型,虽然避开了与有钱有势的大厂们的直接竞争,但也面临三大难题。 

一是数据如何才能做专做细,很多行业定制化模型依旧难以形成数据飞轮与场景飞轮。二是大厂极容易摘低垂的果实,垂直大模型实现复用的前提是必须要在该行业建立壁垒与护城河,即“人无我有”的竞争优势。三是通用化往往是历史的趋势,因此“未来垂直大模型是否会最终被通用大模型取代”这一问题也值得思考。 

大船票or小船票?

人工智能专家侯世达的学生梅拉妮·米歇尔在《AI 3.0时代》里认为,研究人工智能与赛道中的创业者们都熟悉了一种模式——先是“人工智能的春天”,紧接着是过度的承诺和媒体炒作,接下来便是“人工智能的寒冬”。从某种程度上来说,这种模式以5~10年为周期在不断上演。 

正在兴起的“大模型热”也必定会经历从繁荣到挤去泡沫的过程。 

对中国的科技公司而言,“能不能做出一个中国版GPT”“中国创业公司里是否会出现一个OpenAI”。对上述大模型行业的叩问,从业者们看法不一。 

李彦宏在被问到“中国创业公司里会不会再出一个OpenAI?”时,他直接回答“基本不会了”,“没有必要再重新发明一遍轮子。” 

但另一种观点也认为,中国攻坚大模型依旧难以绕开OpenAI,这种危机感越发强烈。旷视科技联合创始人印奇在接受钛媒体采访时表示,中国攻坚 AI 大模型要先把GPT-3.5复现出来,但面临长期技术创新与短周期商业化两重压力: 

“未来的一段时间,能不能有一个公司首先把大模型真的做出来,且性能真的是达到GPT-3.5,这是所有事情的起点。就像菜你没有炒过,不知道盐和味精怎么放,而且GPT所消耗的资源、门槛都非常高。” 

是崇尚“大算力+大数据+强算法”的暴力美学,还是专注将一个垂直模型做透做专?中国企业的机会又在哪里?又可以在哪些方面深耕与挖掘? 

这些问题的答案都亟待解决。 

与此同时,人们也关注大模型行业未来的市场格局演进。未来究竟是两三家企业间的竞争,还是百花齐放?“大船票”和“小船票”或牵引企业走向不一样的结局。 

在关于大模型的这场游戏中,尽管尚未看到终局,但对入局者而言,有两大方向是确定的: 

一个是应用与场景先行的逻辑。 国产大模型极为强调产业侧的价值,一方面当前中国智能化浪潮下,产业侧数字化实践本就有广阔的市场需求,另一方面在2B生态下,基于垂直应用的实践本身也有利于形成数据飞轮与场景飞轮。 

以金融业为例,BloombergGPT的诞生已说明了这一领域既有数据基础,也有多元化场景需求。但在此前的实践中,存在的问题一是数据量庞大,AI专家培养成本高,因此只有头部银行机构愿意尝试。二是金融机构对业务的连续性与数据的准确性有着严苛要求,因此也对大模型厂商对行业的理解能力提出了高要求。 

换言之,回到业务本质,需要什么就用什么。 

通用意味着泛化,这为能够输出精准能力的企业提供了机会窗口。如果能将一个垂直领域做专做透, 用高质量的数据持续优化模型,将价值链做长。 对创企而言,金融、医疗、教育等领域都有市场空间。 

二是先行者已提供了路线参照。 如周鸿祎所言,差距并非是天壤之别,路线已经明确。周鸿祎指出:“发展大语言模型,别人已经指明了技术路线,剩下的就是长期主义指导下的时间问题。” 

很难回答,此轮的大模型竞逐是否是人工智能竞赛浪潮最后的哨声,但几乎每个从业者都害怕自己会成为“最后的一个”。科技大公司们恐惧被颠覆,创业公司恐惧被大公司们颠覆,更大的恐惧则来自于大模型超越摩尔定律的技术迭代速度。 

而在商业世界里,危机与恐惧往往是最好的原动力。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21609.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

知圈专栏 | 人工智能的“智能”是什么?— 智能的原理(上)

来源:知社学术圈 编者按: 在全民皆可成为信息源的今天,科学的推广和触达有了更容易的途径,但碎片化令思考停留于浅表也是不可忽略的负面效应。在知社的读者群里,不乏有常规科研人员之外的严肃思考者和孜孜求索者&#…

WAIC2023会后记

听了3天WAIC的会, 大开眼界,算是上了堂大课。 本次参会的目的是听听AI企业信息化的想法、理论和实践。以进一步探索可能的业务场景。三天的会结束后,留下深刻印象的有如下几点。 大模型当道 2023这次大会的主题成了大模型,谈的…

部署运行ai智障写作记录【ChatRWKV】

文章目录 前言一、环境安装1.python环境:Python 3.10。2.安装一些 pip 库numpy 、tokenizers 、prompt_toolkit3.安装pytorch 1.13.1CUDA 11.7 二、运行记录1、下载代码2、下载训练参数3、编辑代码运行 总结 前言 看到知乎一篇教程, 大佬自己弄得ai小说…

ChatGPT: 深入解读OpenAI的语言模型技术

ChatGPT: 深入解读OpenAI的语言模型技术 引言 引言部分旨在介绍ChatGPT是什么,为什么它是近年来最受欢迎的语言模型之一,并概述本文的主要内容。 1.1 简介 ChatGPT是由OpenAI开发的一种基于深度学习技术的对话生成模型。它采用了最先进的自然语言处理技…

【人工智能】ChatGPT 技术架构与相关技术栈清单

ChatGPT 技术架构 ChatGPT是一种基于自然语言处理的神经网络模型,它使用了大量的未标注文本数据进行训练,并通过预测文本中下一个词的方式来自我监督。 文章目录 ChatGPT 技术架构自监督预训练模块预训练模型深度学习Transformer模型生成式模型微调模块注意力机制多头自注意…

百度正式推出文心一言及百家号文章代发 已可使用

百度正式推出文心一言及百家号文章代发 已可使用,会成为中国版ChatGPT吗?#文心一言 #chatgpt #热点 不久之前,百度在万众期待之下发布了自己的新一代大语言模型闻心一言,不知道大家对这样发布会怎么评价,反正我一位行业…

仿QQ聊天软件及源码java版

一直以来,很多java的同志们都没有一个完整资料来参考。把源码贴出来,大家共享! import java.awt.BorderLayout; import java.awt.Component; import java.awt.Dialog; import java.awt.Dimension; import java.awt.FlowLayout; import java.a…

java 网络编程五 (仿QQ聊天程序)

学完了socket通讯后,在老师的要求下,写了一个仿qq的聊天程序&#xff1a; 最终调试程序结果如下图: 有bug希望提出来,我们一起解决。 设计思路: 在服务器端 用一个HashMap<userName,socket> 维护所有用户相关的信息&#xff0c;从而能够保证和所有的用户进行通讯。 …

Chatgpt论文笔记——GPT1详细解读与可运行的代码

前言 论文&#xff1a;https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 时间&#xff1a;2018年6月 贡献&#xff1a; 提出了大规模数据上无监督预训练然后在目标任务上有监督finetune的范式。 具体实现 当时由于NLP领域不存…

生成式AI管理规则落地 大模型后时代到来

国家网信办等七部门联合颁布的《生成式人工智能服务管理暂行办法》&#xff0c;给中国生成式AI产业树立了发展规范。 这份监管文件的用意并不止于管控&#xff0c;还用大量的笔墨传递出推动产业发展的原则&#xff0c;尤其强调“鼓励生成式人工智能技术在各行业、各领域的创新…

摄影师没了?!生成式人工智能即将降维打击摄影行业

本文是Mixlab无界社区成员的投稿&#xff1a; 滚石 deepfacelab和deepfacelive项目组成员 摄影师失业了&#xff1f;&#xff1f;怎么说&#xff1f; # # 你还以为AI绘画影响的只是插画师行业吗&#xff1f;错了&#xff0c;摄影行业也即将面临技术洗牌。话不多说&#xff0c;先…

AIGC绘就无限可能的元宇宙

随着科技的飞速发展&#xff0c;我们正逐渐步入一个由虚拟和现实交织构成的全新时代。元宇宙&#xff08;Metaverse&#xff09;作为这个新时代的象征&#xff0c;正在成为一个重要的热点。而人工智能生成内容&#xff08;AIGC&#xff09;技术的结合&#xff0c;将无疑会推动元…

开发者出海合规手册;@levelsio独立开发月入20万解析;MJ+AR设计珠宝;SD算法原理-通俗版 | ShowMeAI日报

&#x1f440;日报&周刊合集 | &#x1f3a1;生产力工具与行业应用大全 | &#x1f9e1; 点赞关注评论拜托啦&#xff01; &#x1f916; 独立开发者必看&#xff0c;出海应用开发者合规手册 这是 JourneymanChina 多年出海经验教训的总结&#xff0c;适用于Google Play 以…

ChatGPT唤醒AI游戏?

配图来自Canva可画 “七天制作新游戏”、“AI全自动完成所有游戏&#xff01;”......继各种AI绘画、AI合成照片、视频之后&#xff0c;AI在游戏领域开启了新一场狂欢。 长久以来&#xff0c;游戏和AI一直有着“相互扶持”的亲密关系——一边是游戏充当AI科研基地&#xff0c…

网易的“草长莺飞二月天”:增长稳健,加码研发,逐浪AI

2月23日&#xff0c;网易发布了2022年第四季度财报。 这是网易与暴雪分道扬镳后的首份财报&#xff0c;加上近期AIGC热度扩散至游戏、教育等各个领域&#xff0c;网易第四季度业绩及其对于GPT等热门技术的探索受到市场关注。 根据财报&#xff0c;第四季度&#xff0c;网易营…

「经济理财」32堂你能听懂的理财课

之前学了一下基金投资课程&#xff0c;作为以后财富管理的积累&#xff0c;可以出门右转看「银行螺丝钉的基金投资课」。但还是觉得应该系统了解一下理财&#xff0c;从小白到理财达人&#xff0c;我需要半年来学习和实践&#xff0c;比较好的是接触到简七理财&#xff0c;结合…

[AI医学] 医学领域几个微调预训练大模型的项目

关键词&#xff1a;AI医学&#xff0c;医学大模型&#xff0c;指令微调&#xff0c;PubMed 文章目录 医学微调大模型1. MedicalGPT-zh2. DoctorGLM3. Huatuo-Llama-Med-Chinese & ChatGLM-Med 医学预训练语言模型1. BioMedLM (2.7B)2. PMC-LLaMA (7B)3. BioMedGPT (1.6B) 总…

程序员专属对联

请欣赏“程序猿春节对联集锦”&#xff1a; 对联一 上联&#xff1a;上拜图灵只佑服务可用 下联&#xff1a; 下跪关公但求永不宕机 横批&#xff1a;风调码顺 风调雨顺 上拜图灵只佑服务可用 下跪关公但求永不宕机 对联二 上联&#xff1a;屏中创造繁华世 下联&#xff1a;指尖…

Node接入ChatGPT 的最强对手Claude

由于个人的chatGPT免费版本即将到期, Claude 很火&#xff0c;在网上被说成是 ChatGPT 的最强对手&#xff0c;是 ChatGPT 的替代品。本文我将介绍下 Claude 是什么&#xff0c;以及如何免费使用 Claude. 什么是Claude 看一下它是如何自我介绍的 Slack Slack 是一款流行的团…

读《EMOQ-TTS: EMOTION INTENSITY QUANTIZATION FOR FINE-GRAINED CONTROLLABLE EMOTIONAL TEXT-TO-SPEECH》

0 Abstract 虽然近年来文本到语音(TTS)的研究取得了显著进展&#xff0c;但仍局限于情感语音合成。为了产生情感话语&#xff0c;大多数作品都利用了从情感标签或参考音频中提取的情感信息。然而&#xff0c;由于话语层面的情绪条件&#xff0c;它们导致了单调的情绪表达。在本…