国内大模型领域进入乱战时代
- 2023.4.12
- 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。
什么是大模型
大模型,又称为预训练模型、基础模型等,是指模型参数数量很大,需要大量计算资源才能训练的深度学习模型。这些模型通常包括数千万甚至数百亿、数千亿个参数,其中常见的大模型包括BERT、GPT、ResNet等。
大模型的优点在于它们可以更好地学习数据中的复杂特征,从而提高模型的准确性和泛化能力。然而,由于这些模型需要大量计算资源来训练,因此它们的训练时间往往非常长,需要使用大量的计算资源,如GPU或TPU。
为了训练大模型,需要使用高性能计算机或云计算平台。这些平台可以提供大量的计算资源,从而加速训练过程。此外,还需要使用优化算法和技术,如分布式训练、混合精度训练、梯度累积等,以提高训练效率和准确性。
国内大模型的现状
截止2023年4月上旬,国内已有很多家公司发布/或预发布大模型。我搜集了大部分数据,根据宣布时间排序,大致情况如下:
- OpenAI的GPT-3.5/4(国外)
- Google的Bard(国外)
- 百度的文心一言
- 华为的大模型盘古
- 清华大学发布大模型ChatGLM,开启内侧
- 阿里发布大模型通义千问
- 阿里达摩院上线“文本生成视频大模型”:目前仅支持英文输入,已开放试玩
- 蚂蚁集团与清华大学签署合作协议,将合作研究“安全通用大模型”和“下一代互联网应用安全技术”
- 商汤科技发布多模态多任务通用大模型“书生2.5”,迈向AGI通用人工智能
- 360宣布:基于360GPT大模型开发的人工智能产品矩阵“360智脑”率先落地搜索场景,将面向企业用户开放内测
- 科大讯飞:将于5月6日发布“1+N认知智能大模型”及应用产品
- 毫末智行推出全球首个自动驾驶认知大模型DriveGPT,4月公布最新进展
- 商汤科技推出“日日新SenseNova”大模型体系,发布自研中文语言大模型应用平台“商量SenseChat”
- 昆仑万维:即将发布国产大语言模型“天工”3.5,将于4月17日启动邀请测试
- 有赞上线大模型驱动AI产品“加我智能”,支持图文推广和活动策划两大场景
- 腾讯混元系列AI大模型还在研发中
- 字节跳动组建大模型团队:朱文佳带队,搜索、智创两部门牵头。
- 搜狗创始人王小川宣布开启人工智能大模型领域创业:成立新公司“百川智能”,已获得5000万美元启动资金
- 京东陆续发布了10亿级的K-plug模型、百亿级的Vega模型等一系列领先的大模型,并拟于今年发布千亿级的言犀大模型。
- 达观数据研发“曹植”大语言模型,致力于国产GPT模型
- 澜舟科技完成数亿元融资,推出孟子MChat可控大模型
- 复旦大学研发MOSS大模型,拟4月中旬开源
- 中科院自动化研发紫东太初大模型,能够实现视觉、文本、语音三个模态间的高效协同,性能全球领先。
- 北京智源人工智能研究院发布万亿参数的超大规模智能模型“悟道2.0”
于此同时
郭嘉对擅自提供ChatGPT访问服务的公司和个人进行了打击。
一些预测
- 一拥而上的大模型,带来的结果会是:伴随用户试用过程中的嘲笑/调侃而慢慢退出市场(有ChatGPT行业标杆的衬托),丢人丢面。
- 垂直行业类的大模型在专门的领域内有超越ChatGPT的可能(专业vs通用),满足行业用户的需求而长期存在。
- 随着资本的涌入,追赶OpenAI的步伐会加快,但中短期内缩小不了差距*(年底GPT-5就会发布)。
- 乱战时代存活下来的头部企业能喝汤,其它公司的投入打水漂。