来源:机器之心
千呼万唤始出来,华为的多模态千亿级大模型 「盘古」3.0 版来了。
自去年底以来,ChatGPT 的技术突破引爆了 AI 军备竞赛,国内外科技公司和机构接连发布了上百个大语言模型。
而在其中,有个玩家「没有出手」,却一直备受期待。7 月 7 日,华为开发者大会 HDC Cloud 在东莞召开,在刚刚进行的 Keynote 上,华为终于公布了盘古大模型的最新消息。
「自 2017 年 transformer 架构提出以后,在一些领域,新的架构已经开始解决通用性问题,AI 进入了大模型时代。国内上半年陆续发布了 80 余个 AI 大模型,」华为常务董事 、华为云 CEO 张平安表示。「我们注意到了它们都有很好的对话能力。但我要说,盘古大模型不写诗,只做事。盘古大模型的目标是利用 AI 技术给各行业带来价值。」
在这次大会上,盘古大模型再次明确定位「为行业而生」,华为也首次对外公布了盘古基础大模型的全栈创新和行业大模型的技术细节。
揭秘盘古 3.0
盘古大模型的目标是要重塑千行百业。
具体来说,3.0 版的盘古大模型是一个面向行业的大模型系列,具有「5+N+X」三层架构:从 AI 能力的基础层,到行业的第二层,再到应用层面向场景的各个接口,华为围绕深耕行业面向开发者持续打造了新的竞争力。
其中:
L0 层包括 NLP、视觉、多模态、预测、科学计算五个基础模型,提供满足行业场景中的多种技能需求。盘古 3.0 提供了 100 亿、380 亿、710 亿和 1000 亿参数等基础大模型,以匹配不同场景、时延、响应速度的行业多样化需求。同时提供全新能力集,包括 NLP 大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力,这些技能都可以供客户和伙伴企业直接调用。无论多大参数规模的大模型,盘古提供一致的能力集。
L1 层是多个行业大模型,华为云既可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等大模型;也可以基于行业客户的自有数据,在盘古大模型的 L0 和 L1 层上,为客户训练自有的专用大模型。
L2 层提供了更多细化场景的模型,更专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景,为客户提供「开箱即用」的模型服务。
针对千亿级参数大模型的训练,华为提出了多种高效训练新技术。
最后这个训练优化器,还入围了 7 月即将举行的 AI 顶会 ACL 的杰出论文奖。
盘古大模型采用完全分层解耦设计,可以快速适配、快速满足行业需求。客户既可以为自己的大模型加载独立的数据集,也可以单独升级基础模型,也可以单独升级能力集。
在 L0 和 L1 大模型的基础上,华为云还为客户提供了大模型行业开发套件,通过对自有数据二次训练,客户就可以拥有自己的专属行业大模型。同时,根据客户不同的数据安全与合规诉求,盘古大模型还提供了公用云、大模型云专区、混合云多样化的部署形态。
在盘古大模型体系下,AI 是如何实现专业化落地的?华为表示,在 AI 管道上存在数十个不同的模型,匹配了多行业的不同诉求。基于此,文案生成,对话语音、代码生成,以及图像生成、编辑等能力都可以供人们快速调用上线。
华为表示,盘古大模型易落地的优势,在于提供了解耦设计。
「我们所有的大模型都共用了能力集,训练数据也进行了解耦。不管你希望使用 310 亿大模型,还是 1000 亿参数的大模型,都可以快速进行转换,」张平安表示。
在底层算力上,华为提供了基于昇腾的硬件,构建了昇腾芯片使能能力 CANN,在这其上则是 MindSpore AI 框架和 ModelArts 机器学习平台。基于这样的全栈能力,华为提升了大模型构建、训练和部署的效率。
由于众所周知的原因,华为使用自有算力设备,在昇腾云上,我们发现大模型的训练效率达到了业界主流 GPU 的 1.1 倍。
硬件能力
这样的算力也可以为外界所用。此次华为云还宣布在乌兰察布和贵安上线昇腾 AI 云服务,可提供每秒 200 亿亿次浮点运算能力。现在缺乏 GPU 的科技公司有了新的选择。据介绍,美团利用昇腾 AI 云服务,AI 算子的工作效率提升了 30%。
昇腾云服务除支持华为自家的 AI 框架 MindSpore 外,还支持 PyTorch、TensorFlow 等主流 AI 框架,框架中的 90% 算子都可以通过华为的迁移工具从 GPU 平滑迁移到昇腾。
为行业而生
在 WAIC 大会上,华为轮值董事长胡厚崑表示,ChatGPT 的出现把 AI 推向了新的风口,人工智能将帮助改写身边的一切。华为现在的核心目标是在下个阶段,全力推进人工智能走深向实。
华为盘古系列基础大模型于 2021 发布,包括 NLP、CV 和科学计算大模型,后续发布了矿山、药物分子、气象、海浪等行业大模型。
其中,盘古 NLP 大模型首次使用了 Encoder-Decoder 架构,兼顾 NLP 大模型的理解能力和生成能力,保证了模型在不同系统中的嵌入灵活性。而在下游应用中,盘古大模型仅需少量样本和可学习参数即可完成千亿规模大模型的快速微调和下游适配。
而盘古 CV 大模型则是首次实现模型按需抽取的业界最大 CV 大模型,兼顾判别与生成能力,能够基于模型大小和运行速度需求,自适应抽取不同规模模型,AI 应用开发快速落地。
据华为介绍,盘古大模型已经深耕超过十个行业,服务 400 余个业务场景。
华为云盘古大模型研发团队独立研究并撰写的一篇论文《Pangu-Weather: A 3D High-Resolution Model for Fast and Accurate Global Weather Forecast》登上了《自然》杂志。
作为工程领域的 AI 技术,登陆 Nature 正刊是一件罕见的事。该论文详细介绍了基于深度学习开发的精准精确全球 AI 气象预报系统 —— 华为云盘古气象大模型,这是首个精度超过传统数值预报方法的 AI 预测模型,突破了 AI 预报天气精度不及传统数值预报的世界性难题,对比传统方法预测速度提升 10000 倍,可秒级完成对全球气象的预测
《自然》审稿人对该成果给予高度评价:「盘古气象大模型让人们重新审视气象预报模型的未来,模型的开放将推动该领域的发展。」因为盘古气象系统的准确表现,欧洲气象局已经将该系统列入了模型对比作为参考。
这是盘古大模型应用的「一小步」。在发布会上,华为介绍了一系列大模型在其他领域的落地进展。
在政务领域,华为云携手深圳市福田区政务服务数据管理局上线了政务智慧助手小福,其能够精准理解民众咨询意图,改变了传统的一网通办模式。
在基于盘古大模型的政务助手上,AI 可以实现对话理解,画面内容的分割和理解,并正确对于政务规则进行解释并提出建议。现在摄像头从看得明白升级到了看得懂,对开放世界有了进一步的发现理解,构建了感知、认知到决策处置的全流程能力。
在金融行业,人们面临巨量的数据,对于数据应用和分析的门槛很高。工行在全国有 4 万余个网店和 20 万余员工,利用盘古大模型,工行与华为构建了金融大模型(网店助手),新的模型把生成能力和检索能力进行了结合,可以为柜台流程形成规范的操作指导,降低了单词业务办理的操作次数,每次办结时间缩短了 5 分钟以上。未来,人们还希望在此基础上构建信贷系统、金融风控等组件。
在制造业,生产供应和交付存在大量决策优化问题,传统的求解是一个复杂过程,需要业务专家、编程专家甚至数学专家进行合作。在华为供应链中,盘古制造大模型提前学习了业务流程、制造规则,现在发给制造员的订单信息和邮件可以被大模型准确理解,转化为调度指令交由「盘古天筹求解器」,成为了未来三天的全局统筹最有规划。
当其他大模型还在聊天写段子的时候,盘古大模型正在下矿井,做气象预测,开发新药。华为表示,这就是盘古大模型的理念。
最后当然还有 AI 自动编程能力,华为盘古的代码生成工具名叫 CodeArts。
「盘古训练了 760 亿行精选代码,8500 万开源代码仓,1300 余万篇技术文档。它内建了盘古大模型智能开发助手 CodeArts Snap,目标是一句话生成代码,一个案件生成测试用例,依次点击自动注释。我们的目标是让它称为每个开发者的 AI 助手,」张平安表示。
它有三大核心能力:智能生成代码,智能问答和智能协同。
在现场,华为展示了用 CodeArts Snap 开发一个未完成的应用。首先,我们用对话方式提出需求,把需求复制到代码注释位置,就可以命令 Snap 直接完成目标任务的开发。
我们可以让 Snap 解释代码的意义,生成测试用例,随后直接一句话就可以让它自动提交代码,进行流水线应用部署,AI 还自动生成了 Commit 提交信息。过去这些功能可能需要在不同软件上进行切换,现在在一个对话框里,这些任务就可以快速完成了。
在活动中,华为还介绍了数字内容生产工具 MetaStudio 的能力,拍摄一段 5 分钟的视频上传到华为云,一个小时后就可以构建出一个属于自己的数字人。
总结一下,盘古希望让每个开发者和企业都有自己的 AI 版专家助手。
看起来,这样的目标已经一定程度上实现了,未来我们将看到更多基于盘古大模型的应用。
推荐阅读
西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》
润了!大龄码农从北京到荷兰的躺平生活(文末有福利哟!)
如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研
奖金675万!3位科学家,斩获“中国诺贝尔奖”!
又一名视觉大牛从大厂离开!阿里达摩院 XR 实验室负责人谭平离职
最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!
【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!
2021李宏毅老师最新40节机器学习课程!附课件+视频资料
欢迎大家加入DLer-计算机视觉技术交流群!
大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。
进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)
👆 长按识别,邀请您进群!