Chat-GPT问世以来,使得大模型一时间内火爆非凡。国内外各大科技公司也纷纷加入到大模型的研发行列中来,“百模之战”愈演愈烈,国内百度、阿里、华为等科技大厂陆续推出旗下大模型产品,新锐科技公司也不甘落后,目前不少产品已经进入内测阶段。本文就来对国内部分AI大模型产品做个简单的集锦综述。
1.百度——文心一言
文心一言(英文名:ERNIE Bot)是百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够进行对话互动、文本翻译、问题回答,高效便捷地帮助人们获取知识信息。文心一言是知识增强的大语言模型,基于飞桨深度学习平台和文心知识增强大模型,持续从海量数据和大规模知识中融合学习具备知识增强、检索增强和对话增强的技术特色 。
文心一言不仅能够生成文字,还能够生成图片、音频、视频等多种形式的内容 。以百度自研的跨模态大模型ERNIE-ViLG为底层架构,进而能够实现从文字到图像、从图像到文字、从声音到图像等多种转换 。用户通过简单的文字描述,文心一言便可通过相应的指令来图画、LOGO或者视频的产出,具有多模态生成能力。
2.阿里——通义千问
通义千问,是阿里云推出的一个超大规模的语言模型,可以进行多轮对话、文案创作、还具备逻辑推理、多模态理解、多语言支持的能力。通义千问以阿里巴巴达摩院自主研发的大规模分布式计算平台为架构,包括含光800、云计算平台等。在硬件设备方面,使用的是阿里自主研发的高性能计算芯片“含光800”。
通义千问能够跟人类进行多轮的交互,也融入了多模态的知识理解,且有文案创作能力,能够续写小说,编写邮件等。除了基本的文本生成和问答能力,还支持更多的定制化需求,可以针对不同场景和应用进行扩展和定制,提供更加个性化的服务和解决方案。
3.华为——盘古
盘古大模型是华为旗下开发的一系列AI大模型,首次基于「鹏城云脑 Ⅱ」和全场景 AI 计算框架 MindSpore 的自动混合并行模式实现在 2048卡算力集群上的大规模分布式训练,是国产全栈式 AI 基础设施第一次支持 2000 亿级超大规模语言模型训练,探索并验证了国产 E 级智算平台在软硬件协同优化、大规模分布式并行训练等核心关键技术上的可行性。
在模型性能方面,鹏程. 盘古大模型性能全球领先,16 个下游任务中性能指标优于业界 SOTA 模型,其中零样本学习任务 11 个任务领先、单样本学习任务 12 个任务领先、小样本学习任务 13 个任务领先。目前对于网传的“盘古Chat”并没有官方准确消息,但据悉2023华为开发者大会(HDC)将于7月7日在东莞召开,AI将会是本次大会的主线。
4.科大讯飞——星火认知大模型
讯飞星火认知大模型是由讯飞人工智能实验室于2021年9月发布的中文自然语言处理全栈平台,它是基于Transformer架构的深度神经网络模型,拥有超过1000亿个参数,是目前世界上最大的中文预训练语言模型。讯飞星火认知大模型使用了超过1000亿字的中文文本数据进行训练,具有7大核心能力,即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力,能够有效地捕捉中文语言的复杂性和多样性。
5.实在智能——TARS
实在的国产大模型,TARS(塔斯)历经半年研发,近期正式上线开始内测。这是国内人工智能企业、RPA赛道头部实在智能自研垂直领域的大语言模型,在TARS大模型中叠加了多项自然语言处理前沿技术,基于开源基座模型,在千亿级高质量Tokens上进行了充分训练,完整复现了Pretrain、SFT和RLHF三个阶段,语言理解能力及指令跟随能力等在横向对比测试中均取得良好效果。
TARS大模型全面支持私有化部署,用户可完全自主掌控数据和模型,确保内部敏感数据的安全性,并可根据业务需求进行定制化开发。响应国家互联网信息办公室发布的“关于《生成式人工智能服务管理办法(征求意见稿)》”,在TARS大模型中叠加了多项自然语言处理前沿技术。如:模型的不当言论判别,从而进一步增强了模型的生成效果和安全性。目前,实在TARS大模型正在进行更全面、更完整的效果评测,相关结果将在近期陆续公布。
6.复旦大学——MOSS
MOSS是复旦大学自然语言处理实验室发布的国内第一个对话式大型语言模型,拥有160亿参数。它由约7000亿中英文及代码单词预训练得到,精度要求不那么高的话,甚至可以在单张3090显卡上运行。MOSS支持中英双语,拥有多轮对话和使用多种插件双重能力,具备搜索引擎、文字生成图片、计算器、方程求解的“技能点”。
作为“国内首个开放测试的ChatGPT”,MOSS已经经历了两版迭代,一版是公开邀请内测的MOSS 002版本,另一版是内部测试版本OpenChat 001。
7.智源研究院——悟道3.0
智源研究院在2023北京智源大会上发布了悟道3.0大模型系列,包括首个支持中英双语知识、开源商用许可协议、支持国内数据合规要求的开源语言大模型悟道·天鹰(Aquila),以及一站式的科学、公正、开放的基础模型评测体系天秤(FlagEval)。它包括7B、33B的基础模型,以及AquilaChat对话模型和AquilaCode文本代码生成模型。
8.360——360智脑
360智脑是360公司开发的一款生成式人工智能大模型产品,集合了 360CV 大模型、360GPT 大模型、360GLM 大模型和 360 多模态大模型的技术能力,具有语言理解、图像识别、自然语言处理等多面应用能力。
9.澜舟科技——“孟子”
孟子预训练模型是基于团队自研技术研发的大规模预训练语言模型。可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务,能快速满足不同领域、不同应用场景的需求。孟子模型基于 Transformer 架构,包含十亿参数量,基于数百 G 级别涵盖互联网网页、社区、新闻、电子商务、金融等领域的高质量语料训练。
10.中科院自动化所——紫东太初
紫东太初,是中国科学院自动化研究所研发的跨模态通用人工智能平台 。全球首个图文音(视觉-文本-语音)三模态预训练模型(OPT-Omni-Perception pre-Trainer),同时具备跨模态理解与跨模态生成能力,取得了预训练模型突破性进展。紫东太初大模型将文本 + 视觉 + 语音各个模态高效协同,实现超强性能,在图文跨模态理解与生成性能上都能领先目前业界的SOTA模型,高效完成跨模态检测、视觉问答、语义描述等下游任务。
目前,技术不断发展推陈出新,国内大模型还在不断涌现,无论是已有模型的优化升级还是新模型的横空出世都值得我们拭目以待,也期待大模型能为各行各业的发展助力赋能,提高各行各业数据处理和决策效率、增强风险预测和控制能力,使数字化时代更上一层楼。