坐拥270亿参数!阿里达摩院发布超大规模语言模型PLUG,上能写诗词歌赋、下能对答如流...

作者 | 马超

出品 | CSDN(ID:CSDNnews)

日前,阿里达摩院发布了最新中文预训练语言模型 PLUG,在 PLUG 生成的各种诗歌与小说中,不时灵光闪现式的金句、妙语令人啧啧称奇。

但是以笔者从业多年的经验看,这些 PLUG 的金句虽然值得细细口味,但此时更应该关注的还是 PLUG 如何介绍自己,于是我就在“自由创作”的试用栏目输入了“自然语言处理模型 PLUG ”的题目,虽然受到算力限制,PLUG 并没有生成出完整的结果,但是这也已经有点上道的意思。

我们知道评价智能化程度的重要指标,就是智能体是否具有认知能力,从目前 PLUG 的理解与生成情况看,未来 PLUG 的进化终极体会不会直接把文科生的饭碗“抢”了,其实也未尝不可能。

从技术角度看,PLUG(Pre-training for Language Understanding and Generation)最令人瞩目的是参数规模达到 270 亿,虽然还比不上 GPT-3 模型 1750 亿的参数量,但在中文社区的纯文本预训练语言模型中,这已是目前为止最大规模,算是不错的成就。接下来,PLUG 会将参数规模扩大到 2000 亿,并进一步提高文本生成质量。

不同于 GPT-3 单向生成模型,PLUG 集合了达摩院 NLU 语言模型 StructBERT 与 NLG 语言模型 PALM 两大自然语言模型的优势,并通过构建输入文本双向理解能力,显著提升了输出文本的相关性。在语言理解任务上,PLUG 以 80.614 分刷新了 CLUE 分类榜单纪录;在语言生成任务上,PLUG 多项应用数据较业内最优水平提升了 8% 以上。

大规模自然语言模型简史

2019 年在《权力的游戏》结局烂尾之际,OpenAI 的超大规模预训练语言模型 GPT 系列成功上位,有热心网友使用 GPT-2 来重写权游剧本的结局。网友普遍反应 AI 改写的新结局比电视剧的版本强太多,一时之间 GPT 各种喜提热搜,而抱得大名。

去年 GPT-3 又横空出世,这是一个只要你会简单的英语,并能大概描述需求,它就能给你生成前端的代码的强力模型,像笔者这种在 IT 界摸爬滚打十几年的老程序员,在试用了 GPT-3 网站之后,也惊得说不出话来,瞬间感觉程序员这行也没那么香了。

自此以后,中文领域的自然语言模型进展也备受业界关注,正如前文所说阿里达摩院本次发布的 PLUG,让我觉得码字的文职岗位可能也要凉了….经过不断的进化,未来 PLUG 这类超大语言模型将泛应用于文本生成领域,成为“万能写作神器”。

更重要的是,PLUG 等模型展现出了极强的通用性与适应性,这才是未来真正有可能改变世界的关键点。接下来笔者从技术角度,向大家介绍一下达摩院的 PLUG 为什么如此之强。

PLUG 为何如此之强?

PLUG 采用了 1TB 以上高质量中文文本训练数据,依托阿里云 EFLOPS 高性能 AI 计算集群训练模型,强大的算力支撑肯定肯定是阿里训练 PLUG 的核心竞争力之一,而一方面 NLU 语言模型 StructBERT 与 NLG 语言模型 PALM 两大自然语言模型的共同加持也同样功不可没。

我们知道目前自然语言处理的模型中有自编码自回归两大流派,而 StructBERT 和 PALM 就分别是这两大流派的优秀代表:

自编码模型:StructBERT 就属于典型的自编码模型。这是一项由词嵌入技术发展而来的技术流派。而以 BERT 为代表的自编码模型发展了词嵌入这思想,他们把句子中的单词加上掩码(mask)并通过 AI 模型将 mask 还原,以此完成对于每个字的编码的建模。

比如这个句子:我爱北京天安门,天安门上太阳升。

按照 BERT 的训练方式,它会随机将每个字替换为 mask:

我 [mask] 北京 [mask]安门,天安门上太[mask]升。

然后将 mask 还原回来,通过以上训练方式我们也可以知道自编码模型特别能挑出错字,也就比较适合用于 NLU 也就是自然语言理解的任务。StructBERT 在 BERT 的基础上,特别加强句子级别(Sentence Structural Objective)和词级别(Word Structural 两个层次的建模工作。按照笔者的理解这也就是说,StructBERT 针对词与句子多做了两层的 mask。还拿“我爱北京天安门,天安门上太阳升”这句话来举例。句子级别的建模加强了 BERT 原有的 NSP 任务,需要模型能分辨“我爱北京天安门,天安门上太阳升”是一个正确的语序而“天安门上太阳升,我爱北京天安门”是颠倒的两句话。词级别的建模引入了 tri-gram 的语序还原,比如“我爱北京门天安”的正确语序是“我爱北京天安门”。

自回归模型:PLAM 是典型的自回归模型,其实通俗来看,自回归就是使用自身做回归变量的过程,比如在见到“我爱北京天安?”这段语义集的时候,模型将“?”处预测为“门”的概率就会特别大。

假设我们 I、love、you 三个单词分别对应向量:X_1、X_2、X_3,那么如果我们要建模 ”I love you” 这句话,其实就要通过贝叶斯公式解出,在自然语言这个序列出现的联合概率分布 P(X_1,X_2,X_3)。

由于词语之间不是独立的,我们仅统计 P(X_1)、P(X_2)、P(X_3)三个概率是不够的。因为 X_1 还依赖于其它变量存在条件分布 P(X_2|X_1) 和 P(X_3|X_1)。对于 X_2 和 X_3 也是一样,我们可以将这三个模型组合起来获得期望联合分布 P(X_1,X_2,X_3)=P(X_1)P(X_2|X_1)P(X_3|X_1,X_2)

在自回归模型中都考虑了顺序信息,也就是说他看到 I Love 之后极有可能续写出后面的 “you” 来,这样的条件概率算法是自回归模型的基础。

而 PALM 模型的 encoder-decoder 范式也属于自回归模型的范畴。不同的是,PALM 的 encoder 建模阶段保留了 StructBERT 的训练目标,从而具备更强的文本建模能力,并使得模型能够保留在 NLU 任务上的良好表现。

达摩院团队汲取自编码与自回归两大模型的所长,进行自然语言理解与生成的联合训练。因此能够开看对于 GPT 系列模型的优势。据悉接下来 PLUG 将扩大参数规模至 2000 亿级,以进一步提升文本生成质量。

而笔者认为,如果像 PLUG 这么高端的模型也能飞入寻常百姓家为大众所广泛使用,全面推广的话,那也一定是借了云平台的风,PLUG 的发布还开启了 AI 云计算的新篇章。

AI 云大幕开启

从目前 AI 的发展趋势来看,最新的人工智能模型对于算力的要求越来越高,自上一代自编码模型 Google T5 开始,主流自然语言处理模型的参数数量就突破了百亿大关,甚至谷歌科学家直接在 T5 的论文指出:“越大的模型往往表现更好。这表现扩大规模可能仍然是实现更好性能的方式。“像 GPT-3 参数量更是突破了千亿大关,而 GPT-3 的变种那个可以通过语言描述生成绘画的 DALL.E 参数量更是突破了两千亿。这样的模型训练成本之高,小型的初创公司只能望而却步。

从另一个角度讲,这样的趋势也推进了 AI 与云的结合,只有将 云、人与智能终端结合到一起,才能降低门槛,促进行业创新发展。而这种结合实际与全场景栈 AI 是同一概念,也只有做好 AI 云,才能让 AI 充分发挥威力,体现价值。

此次达摩院在 PLUG 刚刚训练完成之时,就通过阿里云对学术界提供测试体验端口的做法,值得我们点赞,开源共享的做法就是云计算的时代精神。本次达摩院发布的大规模模型一方面将从数据驱动(Data-driven)逐步发展到知识驱动(Knowledge-driven),探索数据和知识深度融合的预训练语言模型;另一方面将不仅仅追求模型参数规模扩大,而会更关注超大模型的落地应用实践。

与 PLUG 发布同步,达摩院宣布近期将开源阿里巴巴深度语言模型体系大部分重要模型。阿里达摩院语言技术实验室负责人司罗表示,“达摩院 NLP 团队将进一步攻克自然语言处理领域科研难题,完善中文及跨语言人工智能基础设施,让 AI 没有难懂的语言,并探索通用人工智能之路。”

声明:本文为作者独立观点,不代表 CSDN 立场。

 

60+专家,13个技术领域,CSDN 《IT 人才成长路线图》重磅来袭!

直接扫码或微信搜索「CSDN」公众号,后台回复关键词「路线图」,即可获取完整路线图!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/59199.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在html中插入背景音乐

注:本方法是通过外链的方式插入背景音乐 1.搜索网易云音乐 2.选择一首音乐,也可以登录后查看自己喜欢的音乐 3.点击生成外链播放器 4.有的歌曲会有权限保护,无法生成外链,这是缺点,我们选择另一首歌 5.可以看到如下代码,不建议使用flash插件,毕竟谷歌浏览器禁用了,影响体验,默…

虚幻4为场景添加背景音乐的三种方法

根据官方文档介绍,虚幻在场景当中添加音乐有三种方法,我这里也不知道它到底支持哪些音频,反正导入mp3文件不好用,改成wav文件就没问题了,所以大家在导入文件的时候尽量使用wav文件,就不要使用其他的音频文件…

关于如何在html网页中插入可以自动播放的背景音乐

昨天想做一个带有自动播放背景音乐的html网页,频繁碰壁,最后终于找到问题所在: 一般大家会考虑到audio标签,然后在标签里使用autoplay。理论上是可以的,但是一定要注意浏览器的设置,浏览器一般会自动阻断背…

H5背景音乐解决方案

前言背景音乐播放 1 自动播放 1 微信问题2 Safari问题3 解决方案代码 2 点击播放 离开页面关闭音乐缓存状态 1 客户端存储数据方法2 示例 完整解决方案代码 1. 前言 很多H5的项目会用到背景音乐,虽然是很小的一个模块,但是有不少的坑。本文总结了背景音…

【向生活低头】如何在Gold Wave软件中为声音添加背景音乐

很奇怪,百度了很久,找到的方法都不可以用(都用的混响),但大家又都很统一,我感觉很奇怪。 最后,我找到了这个视频,(用的混音)这次终于可以了。 记录&#xff0…

告别枯燥,ppt背景音乐怎么设置?

大家用过ppt吗?在办公软件中,ppt最常用到的就是在于广告宣传这方面,因为ppt里面的各种元素都能让你的宣传更加灵动。ppt背景音乐怎么设置?在制作ppt的时候,当表面因素勾勒得差不多时,如果设置一个背景音乐可…

chatgpt赋能python:Python如何减慢输出速度

Python如何减慢输出速度 Python是一种高级编程语言,被广泛应用于数据分析、人工智能和Web开发中。在这里,我们将探讨一种方法,即如何减慢Python的输出速度,从而进行更有效的调试和优化。 什么是Python的输出速度? 在…

【观察】数据分析还能这样玩?《事业告急——月老KPI下降分析》的“制胜秘籍”...

谈起去年参加2022帆软数据分析大赛时,新希望集团BI项目经理林家喜仍然“记忆犹新”,凭借参赛作品《事业告急——月老KPI下降分析》,他带领的团队在193份参赛作品中“脱颖而出”,斩获了大赛的“最佳展现创意奖”。 事实上&#xff…

AnalyticDB(ADB)+LLM:构建AIGC时代下企业专属Chatbot

为什么Chatbot需要大语言模型向量数据库? 这个春天,最让人震感的科技产品莫过于ChatGPT的横空出世,通过大语言模型(LLM)让人们看到了生成式AI能实现到和人类语言高度相仿的语言表达能力,AI不再遥不可及而已…

ModaHub魔搭社区:如何基于向量数据库+LLM(大语言模型),打造更懂你的企业专属Chatbot?

目录 1、为什么Chatbot需要大语言模型+向量数据库? 2、什么是向量数据库? 3、LLM大语言模型+ADB-PG:打造企业专属Chatbot 4、ADB-PG:内置向量检索+全文检索的一站式企业知识数据库 5、总结 1、为什么Chatbot需要大语言模型+向量数据库? 这个春天,最让人震感的科技产品…

Photon AI Translator 和做产品的一些思考

近 4 个月内我一直在做 Apple 平台的产品,虽然从使用量来说「简体中文」用户是占多数,但我一直有做多语言的支持:英语、简体中文和繁体中文。习惯上 Google 翻译的我,基本上在使用 Xcode 过程中也会一直在浏览器开着 Google Trans…

大一新生调查报告——新生遇到的问题与需求

小组成员: 信通6班何若溪(人际关系主题),章玉(学习压力主题),袁博秋(思乡主题) 信通7班梁凌(信息整合与报告制作) 信通8班夏姝婷(时间…

基于PHP的大学生问卷调查系统

一 项目介绍 基于PHP的大学生问卷调查系统 数据库mysql ,可搭建在phpstudy下,实现快速部署! 二 主要功能 用户 1 登录 2 填写问卷 管理员 1 登录 2 问卷/问题(增删改查) 3 问卷统计结果(按选择结果百分比显示) 4 问卷回收情况(参与用户和未…

大学生社团管理系统数据需求(二)

目录 前言 一、用户、管理员登录业务数据流图 二、用户、管理员修改信息业务数据流图 三、用户申请社团数据流图 四、用户报名社团活动数据流图 总结 前言 上次我写了大学生社团管理系统的数据字典,列出了主体及他们的内容,今天我想分享一下我画的…

广告行业中那些趣事系列64:低成本训练一个媲美ChatGPT效果的Vicuna模型

导读:本文是“数据拾光者”专栏的第六十四篇文章,这个系列将介绍在广告行业中自然语言处理和推荐系统实践。本篇主要从理论到实践介绍低成本训练一个媲美ChatGPT效果的Vicuna模型,对于希望搭建自己的大语言模型并应用到实际业务场景感兴趣的小…

618,你会入手哪些书?【文末送书】

好书分享 前沿技术人工智能半导体新一代通信与信息技术网络空间安全参与规则 一年一度的618又到啦!今年的618就不要乱买啦,衣服买多了会被淘汰,电子产品买多了会过时,零食买多了会增肥,最后怎么看都不划算。可是如果你…

Bito AI:免费使用 AI 编写代码/修复错误/创建测试用例 Use AI智能聊天 to 10x dev work

目录 Bito AI 简介 关键是:免费的!注册就能使用!!还不赶紧用起来??!https://bito.co/

你真的懂树吗?二叉树、AVL平衡二叉树、伸展树、B-树和B+树原理和实现代码详解...

树(Tree)是一种相当灵活的数据结构(上一节已经详细讲解了基本的数据结构:线性表、栈和队列),你可能接触过二叉树,但是树的使用并不限于此,从简单的使用二叉树进行数据排序,到使用B-树或B+树设计数据库引擎,以及目前热门的人工智能机器学习都使用到树,例如决策树(De…

人工智能预测股票涨停?靠谱吗?好像行哦,那不发财了?

背景 人工智能很火,各种秀。股票让人欢喜让人忧。它们结合能擦出什么样的火花? 我从去年5月学编程,树立目标:数据分析股市,做快乐盈利股民。达成阶段目标:预测股票涨停。特写文章记录和分享,也…

ChatGPT: 软件开发通用性与易用性的联系

测试地址: https://chatgptmirror.com?share3T7MZ8