30亿参数,华为云发布全球最大预训练模型,开启工业化AI开发新模式

本文分享自华为云社区《HDC.Cloud 2021 | 华为云发布全球最大预训练模型,开启工业化AI开发新模式》,原文作者:技术火炬手 。

4月25日,华为云发布盘古系列超大规模预训练模型,包括30亿参数的全球最大视觉(CV)预训练模型,以及与循环智能、鹏城实验室联合开发的千亿参数、40TB训练数据的全球最大中文语言(NLP)预训练模型。后续,华为云还将陆续发布多模态、科学计算等超大预训练模型。

华为云人工智能领域首席科学家、IEEE Fellow田奇表示:“预训练大模型是解决AI应用开发定制化和碎片化的重要方法。华为云盘古大模型可以实现一个AI大模型在众多场景通用、泛化和规模化复制,减少对数据标注的依赖,并使用ModelArts平台,让AI开发由作坊式转变为工业化开发的新模式。”

▲华为云人工智能领域首席科学家、IEEE Fellow田奇

全球最大中文语言预训练模型,刷新CLUE三项榜单世界纪录

盘古NLP大模型是全球最大的千亿参数中文语言预训练模型,由华为云、循环智能和鹏城实验室联合开发,预训练阶段学习了40TB中文文本数据,并通过行业数据的样本调优提升模型在场景中的应用性能。

盘古NLP大模型在三个方面实现了突破性进展:

第一,具备领先的语言理解和模型生成能力:在权威的中文语言理解评测基准CLUE榜单中,盘古NLP大模型在总排行榜及分类、阅读理解单项均排名第一,刷新三项榜单世界历史纪录;总排行榜得分83.046,多项子任务得分业界领先, 向人类水平(85.61)迈进了一大步。

▲盘古NLP大模型位列CLUE榜单总排行榜第一

在NLPCC2018文本摘要任务中,盘古NLP大模型取得了Rouge平均分0.53的业界最佳成绩,超越第二名百分之六十。

第二,盘古NLP大模型在预训练阶段沉淀了大量的通用知识,既能做理解又能做生成。除了能像GPT-3等仅基于端到端生成的方式以外,大模型还可以通过少样本学习对意图进行识别,转化为知识库和数据库查询。通过功能的模块化组合支持行业知识库和数据库的嵌入,进而对接行业经验,使能全场景的快速适配与扩展。比如在华为云和循环智能合作构建的金融客服场景中,盘古NLP大模型能更好地赋能销售环节,帮助服务人员快速提升业务水平,重塑消费者体验。

第三,盘古NLP大模型采用大模型小样本调优的路线,实现了小样本学习任务上超越GPT系列。比如在客户需求分析场景中,使用盘古NLP大模型生产语义标签时,得到目标结果所需的样本量仅为GPT系列模型的十分之一,即AI生产效率可提升十倍。

30亿参数,全球最大视觉预训练模型

盘古CV大模型是目前业界最大的视觉预训练模型,包含超过30亿参数。盘古CV大模型首次兼顾了图像判别与生成能力,从而能够同时满足底层图像处理与高层语义理解需求,同时能够方便融合行业知识微调,快速适配各种下游任务。盘古CV大模型性能表现优异,在ImageNet 1%、10%数据集上的小样本分类精度上均达到目前业界最高水平(SOTA)。

盘古CV大模型致力于解决AI工程难以泛化和复制的问题,开创AI开发工业化新模式,大大节约研发成本。此外,盘古CV大模型提供模型预训练、微调、部署和迭代的功能,形成了AI开发完整闭环,极大提升AI开发效率。目前,盘古CV大模型已经在医学影像、金融、工业质检等100余项实际任务中得到了验证,不仅大幅提升了业务测试精度,还能平均节约90%以上的研发成本。

盘古CV大模型助力无人机电力智能巡检

国网重庆永川供电公司是国内早期应用无人机电力智能巡检技术的电网企业。传统的无人机智能巡检AI模型开发主要面临两大挑战:一是如何对海量数据进行高效标注;二是缺陷种类多达上百种,需要数十个AI识别模型,开发成本高。

华为云与国网重庆永川供电公司合作,在无人机智能巡检AI模型开发上,华为云盘古CV大模型相对于传统开发模式,展现了其强大的优势。

在数据标注方面,盘古CV大模型利用海量无标注电力数据进行预训练,并结合少量标注样本微调的高效开发模式,独创性地提出了针对电力行业的预训练模型,使得样本筛选效率提升约30倍,筛选质量提升约5倍,以永川每天采集5万张高清图片为例,可节省人工标注时间170人天。

在模型通用性方面,结合盘古搭载的自动数据增广以及类别自适应损失函数优化策略,可以做到一个模型适配上百种缺陷,替代原有20多个小模型,极大地减少了模型维护成本,平均精度提升18.4%,模型开发成本降低90%。

盘古大模型背后的支撑

盘古NLP大模型涉及千亿参数、40TB训练数据,对算法、算力、海量数据处理、并行优化都提出了很大挑战。

在算法方面,华为云的算法团队和循环智能(Recurrent AI)的NLP团队联合攻关,突破了大模型微调的难题。

鹏城实验室的国内最大规模AI训练集群鹏城云脑II,在盘古NLP大模型训练中展示出强大的AI算力和数据吞吐能力,为盘古大模型训练打下坚实的基础。

另一方面,华为底层软件、训练框架、ModelArts平台协同优化,充分释放算力,达成全栈性能最优。首先,针对底层算子性能,基于华为CANN采用了算子量化、算子融合优化等技术,将单算子性能提升30%以上。其次,华为MindSpore创新性地采用了“流水线并行、模型并行和数据并行”的多维自动混合并行技术,大幅降低了手动编码的工作量,并提升集群线性度20%。华为云ModelArts平台提供E级算力调度,同时结合物理网络拓扑,提供动态路由规划能力,为大模型训练提供了最优的网络通信能力。此外,借助ModelArts平台的高效处理海量数据能力,仅用7天就完成了40TB文本数据处理。

截至目前,华为云已经在全国10多个行业超过600个项目进行了人工智能落地和实践,帮助城市、交通、医疗、钢铁、纺织、能源、金融等行业智能升级。未来,华为云将持续通过技术创新,驱动产业智能升级。

 

点击关注,第一时间了解华为云新鲜技术~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/67146.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI大模型未来将走向何方?广泛应用成首要挑战

导读:如何让AI大模型被广泛应用起来? 目前在AI行业,大模型火到破圈。 今年11月初,华为云盘古大模型的机场广告在首都机场和深圳宝安机场亮相,主打“行业AI开发应用优选”的定位。11月18日,权威时政媒体中国…

千亿参数的盘古大模型

盘古系列AI大模型包括NLP大模型、CV大模型、多模态大模型、和科学计算大模型。具备超大神经网络,实际参数量超千亿;具备强大网络架构,实际综合性能比定制化模型提升10%;具备优秀泛化能力,全场景覆盖率提升10倍。 传统…

华为高级研究员谢凌曦:下一代AI将走向何方?盘古大模型探路之旅

摘要:为了更深入理解千亿参数的盘古大模型,华为云社区采访到了华为云EI盘古团队高级研究员谢凌曦。谢博士以非常通俗的方式为我们娓娓道来了盘古大模型研发的“前世今生”,以及它背后的艰难往事。 本文分享自华为云社区《华为高级研究员谢凌曦…

华为盘古大模型:能源领域的颠覆性突破

近日,华为盘古大模型在能源领域横空出世,引发了广泛关注和期待。作为一项具有颠覆性影响的技术创新,华为盘古大模型在能源行业中展现出巨大的潜力和前景。其优质的计算能力和智能优化算法,将为能源产业带来翻天覆地的变革。 盘古大…

【NLP】华为推出了全球最大的中文语言模型-盘古

作者:金雪锋链接:https://www.zhihu.com/question/456443707/answer/1856014437 这次HDC大会,华为联合鹏城发布了两个千亿的NLP大模型(其中一个模型还和循环智能进行了合作),都是盘古命名的。 一个是4月25日…

快来试试!免费用上GPT-4 !!!

GPT-4 简介 GPT-4是OpenAI上个月推出的最新人工智能语言模型,它可以根据给定的文本或关键词生成各种类似于人类语言甚至超越人类语言的文本,例如文章、故事、诗歌、代码、对话等。 GPT-4拥有1750亿个参数,是目前最大的语言模型之一&#xf…

想找一些外文文献,有哪些靠谱的外文文献网站推荐?

论文写作是目前几乎每个专科生、本科生、研究生的必修课,保证毕业的同时也能够进行一定科研工作。论文写作是基于一定科研试验或社会调查的,但过程中文献检索能力同样不可或缺,能否真正的搞好科研,关键在于能否读懂前人的研究。对…

Get Offer —— 简历投递与加分细节

点赞后看,养成习惯 喜欢的话 可以点个关注哟 你们的点赞支持对博主们来说很重要哦 !!! 本篇文章帮你逐个击破以下几个问题: 01 靠谱的简历投递方式有哪些? 02 接到对方的电话面试通知,你在忙该怎么办? 03 面试时,一开始你不知道说些什么,该怎么办? 04 手忙脚乱…

金九银十,从简历投递到offer审批,入职腾讯我只用了七天

9月底投岗腾讯后台开发,历经3面技术HR面offer审批,我却只花了7天时间就上岸成功了... 文末分享一些我的经验之谈,敬请期待... 9-22 投递简历 9-24 一面(大概1h50min) osi七层网络模型,五层网络模型&#…

我是如何 2 个月拿到 4 份 Offer 并收入翻倍的?

作者 | minus 责编 | 伍杏玲 本文经授权转载自石杉的架构笔记 先做个自我介绍,楼主坐标帝都,5年经验,跳槽之前在一家传统小公司,年薪21万。 这次面试前前后后大概两个月的时间,面试了大概6家公司,命中4…

offer(第二版)2021-06-02

还差差14个题完结 面试题1:赋值运算符函数 面试题2:实现Singleton模式 面试题3:数组中重复的数字 面试题4:二维数组中的查找 面试题5:替换空格 面试题6:从尾到头打印链表 面试题7:重建二…

一文带你玩转offer-01

文章目录 1.RabbitMq是如何实现消息路由的1.1 工作流程1.2 路由策略Direct ExchangeTopic ExchangeFanout Exchange 2.谈谈你对时间轮的理解2.1 什么是时间轮2.2 时间轮的工作原理2.3 时间轮优缺点分析 3.什么是幂等?如何解决幂等性问题3.1 什么是幂等3.2 如何解决幂…

和HR谈了5min包裹,刚拿到的offer又被撤回了...

最近,在网上看到很多人都分享了自己谈薪失败,导致offer被revoke的情况。 撤回就算了,更惨的是,还有可能会被该公司列入黑名单。 Offer被revoke很常见,不过在求一个面试机会都难的今年,到手的offer被撤就显得…

您有一份OFFER请查收!

我们总以为生活欠我们一个“满意” 其实我们欠生活一次“尝试” 爱可生正在招人 快来投简历尝试下吧!🤔 如果你 想看到 金融银行体系对数据高可用性要求达99.9999%, 严格要求数据一致性的场景下 数据库如何选型、如何运维?…

记一次腾讯社招前端面试(已拿到offer入职)

作者:小冷^_^ 链接:https://juejin.im/post/5dde65496fb9a07161483fc9 笔者信息 我某211非计算机相关专业2018届本科生,在校期间实习有半年多的小公司Java开发实习经历,毕业之后投递360,入职了360企业安全成为专门的前…

刚收到了Facebook的Offer,我是这样为面试做准备的?

点击上方“程序员大咖”,选择“置顶公众号” 关键时刻,第一时间送达! 我刚刚在硅谷的科技公司完成了7次现场面试,我收到了来自Facebook的软件工程师的职位Offer。下面分享一下我是怎么为面试做准备的,以及我在这个过程…

自学测试半年,我终于收到了腾讯的offer,收到消息的那一刻我哭出了声...

我是一名毕业于普通一本的化学专业学生,毕业的两年时间里,我一直奔波在化工厂里。每天工作三班倒,下了班就是一包烟一瓶酒,生活过得非常堕落。 原本想着虽然每天很累,但是至少稳定。然而没有想到的是,化工…

ChatGPT如何帮助DevOps提升效率

DevOps 是一种方法论,旨在提高软件开发和 IT 运营团队的协作和效率。DevOps 涉及各种任务和流程的自动化,例如规划、编码、测试、部署、监控和故障排除。然而,其中一些任务和流程仍然有大量任务需要人工手动处理,而这会减慢软件产…

IQ测试GPT完胜大学生;AIGC+表情包=?微软将GPT全面集成到Office;原作者对AI有声读物不太满意;GitHub今日热榜 | ShowMeAI资讯日报

🎡 『IQ测试』AI 完胜大学生 GPT-3 在智商(IQ)测试中的表现如何?UCLA(加利福尼亚大学洛杉矶分校)的研究人员发现,在衡量 IQ 的一系列推理测试中,自回归语言模型 GPT-3 的成绩已经明…

什么样的企业需要私有化部署?

编者按:本文介绍了私有化部署的概念及特点,分析了私有化部署适用于什么样的企业,并进一步提出天翎低代码平台在私有化部署方面颇有建树,可以满足企业需求。 概要: (1)私有化部署的概念及特点 (2)什么样的企业需要私有…