盘古Chat是华为基于盘古大模型开发的一款多模态千亿级大模型产品,可以支持多种自然语言理解和生成的任务,如文本生成、问答、翻译、对话等。它是直接对标目前比较火爆的ChatGPT的产品,被认为是新一代的国产“AI”王炸。
盘古Chat预计将于今年7月7日举行的华为云开发者大会(HDC.Cloud 2023)上对外发布以及内测,产品主要面向To B/G政企端客户。根据华为公布的一份论文数据显示,华为盘古PanGu-Σ大模型参数最多为1.085万亿,基于华为自研的MindSpore框架开发。整体来看,PanGu-Σ大模型在对话方面可能已接近GPT-3.5的水平。
盘古Chat是基于盘古大模型的一个应用场景,而盘古大模型则是由NLP大模型、CV大模型、多模态大模型、科学计算大模型等多个大模型构成,通过模型泛化,解决传统AI作坊式开发模式下不能解决的AI规模化、产业化难题。盘古大模型于2021年4月正式对外发布,后来又在2022年4月升级到2.0版本。目前,AI大模型中的NLP大模型、CV大模型以及科学计算大模型(气象大模型)均已被标记为即将上线状态。
盘古Chat的优势在于人才储备和算力自主可控,有望成为国内领先的大模型,其生态产业链标的有望迎来加速发展,包括拓维信息、四川长虹、麒麟软件(中国软件)、统信软件(诚迈科技)、麒麟信安等华为生态公司。
盘古大模型
盘古大模型是华为开发的一系列大规模自回归中文预训练语言模型,包括 NLP 大模型、CV 大模型、多模态大模型、科学计算大模型等。它们都是基于昇腾计算产业生态构建的,可以在不同的行业和场景中提供智能化的服务和解决方案。
其中,NLP 大模型是业界首个超千亿参数的中文预训练大模型,被认为是最接近人类中文理解能力的AI大模型。它首次使用Encoder-Decoder架构,兼顾NLP理解与生成的能力。在预训练阶段学习了超40TB文本数据,并通过行业数据的小样本调优,提升模型在场景中的应用性能。在权威的中文语言理解评测基准CLUE榜单中,盘古NLP大模型在总排行榜及分类、阅读理解单项均排名第一,刷新三项榜单世界历史纪录;总排行榜得分83.046(人类水平是85.61分),多项子任务得分业界领先。
CV 大模型是超过30亿参数的业界最大CV大模型,首次实现模型按需抽取,首次实现兼顾判别与生成能力。它可以基于模型大小和运行速度需求,自适应抽取不同规模模型,AI应用开发快速落地,使AI开发进入工业化模式。使用层次化语义对齐和语义调整算法,在浅层特征上获得了更好的可分离性,使小样本学习的能力获得了显著提升,达到业界第一。
多模态大模型具备图像和文本的跨模态理解、检索与生成能力。它可以根据不同的输入和输出类型,生成适合的内容和回复。例如,它可以根据一段文字生成一幅图像,或者根据一幅图像生成一段文字。
科学计算大模型主要解决各种科学问题,旨在用AI促进基础科学的发展。它可以用于物理、化学、生物等领域的研究和探索,例如气象预报、药物设计、材料发现等。
除了以上四个基础大模型(L0)以外,盘古大模型还包括 图网络(Graph)大模型 ,首创图网络融合技术,在工艺优化、时序预测、智能分析等场景有广泛应用。
盘古大模型不断进化,共分为L0、L1、L2三个层级。L0指基础大模型,L1指行业大模型,L2则是指面向更加细分场景的推理模型。目前,在 L1级别的行业大模型 方面,华为已经推出了盘古金融大模型、盘古矿山大模型、盘古气象大模型、盘古电力大模型、盘古制造质检大模型、盘古药物分子大模型等行业大模型。在 L2级细分场景模型 方面,华为已经推出,例如基于气象大模型的短临气象预报、台风预测等场景模型;例如基于电力大模型的无人机电力巡检、电力缺陷识别等场景模型;例如基于时尚大模型的时尚辅助设计、时尚版权保护等场景模型。此外,在物联网、智能座舱、智能驾驶等领域,华为都已推出基于盘古大模型的各种应用。
在 生态建设方面 ,华为盘古大模型是基于昇腾计算产业生态。关于AI生态型产业链,华为提出“一平台双驱动”的模式。其中“一平台”指基础软件平台,包括AI处理器、服务器硬件以及芯片使能软件、AI框架。“双驱动”指平台要支撑的两大生态,一是技术生态,二是商业生态,包括ISV(独立软件开发商)、IHV(独立硬件开发商)、整机、一体机合作伙伴等。
盘古大模型和GPT-3的差别
盘古大模型和GPT-3都是基于Transformer的大规模自回归预训练语言模型,都可以应用于多种自然语言理解和生成的任务,都具有强大的泛化能力和迁移能力。
但是,它们之间也有一些区别,主要体现在以下几个方面:
语言范围:盘古大模型主要应用于中文的文本生成、问答、翻译等任务。而GPT-3则可以应用于英文和其他语言的文本生成、翻译、自然语言推理、问题回答等任务。
数据来源:盘古大模型的训练数据来自于中文网络数据,包括维基百科、百度百科、新闻、论坛、社交媒体等,总共超过40TB。这种多样性的数据来源使得盘古模型拥有更广泛的知识和语言能力,对于中文应用来说具有很大的优势。
GPT-3的训练数据主要来自于英文网络数据,包括维基百科、谷歌书籍、新闻等,总共约45TB。
参数规模:盘古大模型有2000亿个参数,比 GPT-3 的1750亿稍高一点。参数规模越大,意味着模型可以学习到更多的信息和知识,也可以处理更复杂的任务。
架构设计:盘古大模型采用了Encoder-Decoder架构,兼顾了NLP理解与生成的能力。GPT-3则采用了Decoder-only架构,主要侧重于NLP生成的能力。Encoder-Decoder架构可以更好地处理输入和输出之间的对齐和映射关系,例如机器翻译、文本摘要等任务。
训练方式:盘古大模型在预训练阶段使用了多任务学习的方式,将不同的下游任务转化为语言模型的训练目标,例如机器翻译、阅读理解、文本分类等。这样可以使得模型在不同任务上共享知识和特征,提高泛化能力和迁移能力。
GPT-3则在预训练阶段只使用了单任务学习的方式,即自回归语言建模。
信息源:
(1) 一文看懂:华为盘古系列AI大模型到底是个啥?(附:盘古发布会观看地址) – 知乎. https://zhuanlan.zhihu.com/p/619518908.
(2) 大语言模型汇总(ChatGPT、盘古、通义、文心一言、混元)AI_Frank的博客-CSDN博客. https://blog.csdn.net/qq_30653631/article/details/130049481. (3) 华为加入大模型军备竞赛,“盘古Chat”将于7月发布药物行业分子. https://www.sohu.com/a/682291393_161795.
(4) 盘古大模型和GPT 专家交流 思考 – 知乎 – 知乎专栏. https://zhuanlan.zhihu.com/p/617572386.
(5) 华为云提出盘古气象大模型:中长期气象预报精度首次超过传统数值方法,速度提升10000倍以上 – 知乎. https://zhuanlan.zhihu.com/p/582285853.
(6) HUAWEI4月8号发布中国版chatGPT盘古大模型 – 知乎 – 知乎专栏. https://zhuanlan.zhihu.com/p/619325773.
(7) 拆解华为盘古大模型:与 ChatGPT 有何不同? – 知乎专栏. https://zhuanlan.zhihu.com/p/620559828.
(8) GPT综述-各模型之间的对比 – 知乎 – 知乎专栏. https://zhuanlan.zhihu.com/p/450074465.
(9) 大语言模型汇总(ChatGPT、盘古、通义、文心一言、混元)_AI_Frank的博客-CSDN博客. https://blog.csdn.net/qq_30653631/article/details/130049481.
(10) 消息称华为版ChatGPT“盘古 Chat”7月7日发布,面向To B/G政企端客户TechWeb. http://www.techweb.com.cn/it/2023-06-04/2928151.shtml.
(11) 消息称华为版 ChatGPT“盘古 Chat”7 月 7 日发布,面向 To B / G 政企端客户 – IT之家. https://www.ithome.com/0/697/519.htm.
(12) 好消息!华为自研ChatGPT将于7月7日发布 命名盘古Chat直接对标ChatGPT模型训练芯片. https://www.sohu.com/a/682076882_120930098.
(13) 华为版ChatGPT要来了!盘古Chat被视为新一代国产“AI”王炸. https://www.163.com/dy/article/I6FL90AN0519DG1H.html.