达摩院用128张GPU烧出“中文版GPT-3”,我试了下,这文风不是开往幼儿园的车…...

杨净 子豪 发自 凹非寺
量子位 报道 | 公众号 QbitAI

首先,请先看一段“正经”的文字:

他笑意中的那份温柔,只想给她好好珍藏,即便这一切不会发生,至少在他的世界里,她是无忧无虑的快乐的。就连他对她的关心,她都不在意了,还有什么不放心的呢?“好,我答应你。不过,如果我们能有个孩子,我一定做个好爸爸。”

桥豆麻袋!!!

这难道不是什么某某天堂、某江文学、某点中文上的小说情节?

误会了误会了。

这是最新发布的全球最大规模中文预训练模型“中文版GPT-3”——PLUG的力作。

270亿的参数规模,跟GPT-3一样是“万能写作神器”。

出于好奇,我第一时间就去上手试了试,没想到只是输入了四个字。

泛起笑意,

就给出了如此结果。

这个PLUG,有点意思啊~

竟然擅长的是这个?

接下来,我又进行了一波尝试,调戏一下PLUG的创作实力。

输入「他正要离开」,看它怎么接。

PLUG果然很懂!

,却见他站到了自己身前,一下子拉住了她的手,用一种很奇怪的语调说道:“我的心情很坏,很生气,不过“他看着她,一字一句的说道:“你能不能说的快一点,我不想伤害你。“看着她一脸的冷漠,他的心中微微一酸,但是很快又笑了,温柔的笑了笑:“放心……

有一说一,生成长文本的性能还是相当不错,并且提供了4个文本长度选项(32~512字)。

不过这内容……

难不成,我喜欢XX文的秘密被发现了?

别误会,其实PLUG也能生成“克制”一些的。

比如:输入「阿sir,你看看他」,结果就显得很正常嘛~

甚至还特意生成了繁体字小说,营造出一种港片的氛围感。

(阿sir,你看看他)們幾時對阿爸、阿媽、阿婆笑過;你再看看他們幾時對你笑過。阿爸、阿媽、阿婆,你們笑笑就好了。其實,他們有笑,也有淚……(此处省略200+字)阿sir,你是否真的愛你的父母?

除了擅长写小说,PLUG还能写专业文稿、进行智能问答、生成诗词和菜谱等等。

就比如撰写专业文稿

帮你解答生活常识,官网给出了贴心(不是)的示例:

程序员脱发用什么洗发水好?

三个月打造中文最强GPT-3

说了这么多,要达到这样的效果,这个中文最强GPT-3究竟如何炼成?

PLUG,Pre-training for Language Understanding and Generation,顾名思义,就是集语言理解(NLU)和生成(NLG)能力于一身。

要实现这一点,据团队介绍,这一模型是达摩院此前提出的两种自研模型——NLU语言模型StructBERT、NLG语言模型PALM的融合。

此外,跟GPT-3的单向建模方式不同的是,它采用了编码器-解码器(encoder-decoder)的双向建模方式

具体来说,整个训练过程分为两个阶段。

第一阶段,以达摩院自研的语言理解模型——StructBERT作为编码器。

简单来说,它是在句子级别词级别两个层次的训练目标中,加强对语言结构信息的建模,从而提高模型的语法学习能力。

这也使得PLUG具有输入文本双向理解能力,能够生成和输入更相关的内容。

这个过程共训练了300B tokens训练数据。

第二阶段,将这个编码器用于生成模型的初始化,并外挂一个6层、8192个隐藏层节点数的解码器,共计训练了100B tokens的训练数据。

此外,PLUG还能为目标任务做针对性优化。

上一回说到,GPT-3并没有利用微调梯度更新,而是通过指定任务、展示少量演示,来与模型文本进行交互,完成各种任务。

因此在面对新任务时候,不需要重新收集大量的带标签数据。但不可避免的,生成的效果不足。

比如,犯低级错误就是GPT-3被人诟病比较多的一点。

而PLUG的能力更加全面,既可以实现与GPT-3类似的零样本生成功能,也可以利用下游训练数据微调(finetune)模型,提升特定任务的生成质量。

当然,效果实现的关键,还少不了算力和数据

PLUG负责人表示,原本计划用128张A100训练120天炼成,不过由于阿里云、算法优化等达摩院多方力量的参与,以及加速手段的有效利用,成功将日程缩短到三分之一。

最后,只烧了35天就达到了这样的效果。

前面也提到,PLUG的参数量达到了270亿,中文训练数据量也达到了1T以上。

在语言理解任务上,PLUG以80.614分刷新了CLUE分类任务榜单记录。

而在语言生成任务上,据团队介绍,其多项应用数据较业内最优水平提升了8%以上。

语言模型体系再添一员大将

如果再把PLUG说成是“中文版GPT-3”,似乎就不太准确了。

耗时3个月、270亿参数规模、一发布就给体验端口……

但与此同时,这些关键词的背后,仍然留给读者一些疑问:

3个月是如何做到的?当前的参数规模是终点吗?为何现阶段就免费开放?

阿里深度语言模型体系负责人永春给出了一一解答。

首先,时间问题。主要有两个方面的原因。

从人力的角度来说,永春没有谈具体的数字,但此次涉及阿里的多个团队群策群力共同完成的,当中的训练时间也就大大缩短。

再加上,阿里以往的自研模型已经产生了更多的业务需求,促成了PLUG的开发,这也是阿里整体技术路线中的一环。

GPT-3的出现,给中国的一些玩家触动很大。

什么时候我们能出个中文版的同类模型?

阿里作为其中之一的企业,利用自身的技术、计算资源的优势,率先给出Demo

永春表示,希望通过PLUG的发布,建立起与技术同行之间的桥梁。

要知道,GPT-3到目前也还没有做到完全开放。

不过,团队似乎并不担心PLUG发布之后的一些不确定性。(手动狗头)

比如,出现一些低级错误。

反而笑着说,之前GPT-3不也是因为大家吐槽才火的么?丢给技术圈去检验,这些问题都是不可避免的。

而这样的开源开放,正好是这个技术团队的一大底色。

去年,阿里达摩院发布了自研深度语言模型体系,包括6大自研模型。

通用语言模型StructBERT、多模态语言模型StructVBERT、多语言模型VECO、生成式语言模型PALM……他们一直在致力于陆陆续续将模型开源出来。

永春透露,在PLUG发布这段期间,达摩院宣布将开源阿里巴巴语言模型体系部分重要模型,目前正在走流程中。

至于之后的计划,团队表示2000亿级的参数规模正在规划中,并进一步提升文本生成质量。

而在应用领域,他们还将专门针对医疗领域做下游数据训练。

最终目标是希望将这个模型实际落地,提升NLP技术在方方面面的实力,比如能源、通信、司法等。

也诚如阿里达摩院语言技术实验室负责人司罗所说,

达摩院NLP团队将进一步攻克自然语言处理领域科研难题,完善中文及跨语言人工智能基础设施,让AI没有难懂的语言,并探索通用人工智能之路。

对了,PLUG刚刚完成最后一波调控,目前已开放了测试体验接口(仅供学术目的测试,需同意其相关约定)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15619.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

洞察ChatGPT巨大价值,云知声积极推动行业版ChatGPT落地

近日,ChatGPT的风越刮越猛,不由让人好奇,作为“能说会道”的ChatGPT,能够运用在专业性更高的行业?遗憾的是,从目前ChatGPT给出的答案来看,它距离运用在医疗等专业领域尚有距离。对此&#xff0c…

ChatGPT提示词工程师教程-迭代

不要奢求“一针见血”,要不断打磨,形成良好的提示词迭代流程。多维度,多样本。就像用搜索引擎一样,第一次搜索没有得到想要的结果,就要对搜索的关键词进行修。参考“指南”,想想是否提示词不够清晰&#xf…

ChatGPT 提示的艺术 —— 如何编写清晰有效提示指南

ChatGPT 提示的作用 正如我们之前提到的那样,ChatGPT 对话中使用的提示的质量可以显著影响对话的成功。定义清晰的提示可以确保对话保持在正确的轨道上,并涵盖用户感兴趣的主题,从而产生更引人入胜和信息丰富的体验。 那么什么样的 ChatGPT…

给开发者的ChatGPT提示词工程指南

【中文完整版全9集】第1集 引入-ChatGPT提示词工程师教程 吴恩达xOpenAI官方 【OpenAI官方 | 中文完整版】 吴恩达ChatGPT提示工程师初级到高级(AI大神吴恩达教你写提示词) ChatGPT Prompt Engineering for Development 基础大语言模型和指令精调大语言…

量子退火?这又是啥?居然撑起了第一家量子计算公司

组合优化问题,在应用数学和理论计算机科学领域,指的是在一个有限的对象里集中找出最优对象的一类课题。这类问题特征是可行解的集是离散或者可以简化到离散结果,并且目标是要找到最优解。当前,常见的组合优化问题通用版上包括旅行…

光量子计算公司宣布成立加拿大首个量子网络,大力推进量子创新

加拿大量子网络 光子量子计算的领导者Xanadu今天宣布与MaRS和Creative Destruction Lab(CDL)合作创建加拿大量子网络(CQN)。 CQN着手于加拿大多伦多的Xanadu、MaRS和CDL三个节点,为合作组织提供量子测试平台&#xf…

谷歌用量子处理器发现:光子能在混沌中保持稳健的束缚态

一圈超导量子比特可以容纳微波光子的“束缚态”,其中光子往往聚集在相邻的量子比特位点上。图片来源:Google Quantum AI 使用量子处理器,研究人员可以使微波光子具有异常的“粘性”。在诱使它们聚集成束缚态后,他们发现这些光子簇…

基于量桨搭建AI量子通信模拟平台,优化量子通信协议

点击左上方蓝字关注我们 项目背景 现阶段量子通讯协议的设计和优化依然停留在人工处理的阶段,距离迈向系统化工程处理依然有着不小的距离。导致目前量子通讯协议从研发到实验验证这一整套流程面临着周期长、成本高等问题。系统化的搭建模拟平台和引入先进的人工智能…

量子模拟器中的“弯曲时空”

光子盒研究院出品 当你想解释宇宙尺度的现象时,相对论很有效:比如黑洞碰撞时产生的引力波;量子理论在描述粒子尺度的现象时效果很好(比如原子中单个电子的行为)。但是,将这两者以一种完全令人满意的方式结合…

量子保密通信应用与技术探讨

源自: 信息通信技术与政策 作者:程明 张成良 唐建军 量子密钥在线与离线结合分发模式的应用范围不再局限于QKD网络的覆盖和能力,使得量子保密通信的应用场景得到较大拓展。 摘要 近年来,基于量子密钥分发的量子保密通信在应用方面进行了…

Infleqtion与Morningstar合作探索量子计算的新途径

(图片来源:网络) 量子计算服务商Infleqtion宣布,将Infleqtion的旗舰量子软件SuperstaQ整合到Morningstar投资和投资组合分析平台Morningstar Direct中。借助SuperstaQ的整合,通过Morningstar的实验室分析模块&#xff…

量子通信是不是伪科学?潘建伟这样回应

来源:科技日报 “墨子号”发射快三年了,到底有什么新发现?量子通信和公众有什么关联,到底是不是伪科学?10日,在全国政协十三届二次会议举行的记者会上,全国政协委员、中国科学技术大学常务副校长…

“走近”量子模拟

来源:中国军网 作者:张媛、张远、达平 当下,量子计算在先进材料以及生物化学模拟方面正崭露头角。因为量子力学解释了这些材料的基本物理特性,量子计算非常适合进行模拟。那么,什么是量子模拟?量子模拟有什…

“量子计算+通信”!玻色量子与中国移动研究院强强联合

​2023年3月12日,北京玻色量子科技有限公司(后文简称“玻色量子”)与中国移动通信有限公司研究院(后文简称“中国移动研究院”)达成合作,中国移动研究院院长黄宇红与玻色量子创始人&CEO文凯博士在玻色量…

量子信息技术(QIT)

信息技术IT(Information Technology),比特(bit)——20世纪的技术革命量子信息技术QIT(Quantum Information Technology),量子比特(qbit)——21世纪的技术革命量子信息论在科学方面有着深远的影响,改造量子力学基础,加速变革时空观,加深对定域…

谷歌前量子部门“单飞”,正式成立量子软件公司Sandbox AQ

(图片来源:网络) 3月2日, 量子计算机与量子集成电路开发商Rigetti Computing宣布完成SPAC正式在纳斯达克挂牌上市。与此同时,另外两家量子计算领域的领导者IonQ、D-wave也在火速筹备上市前的准备工作。 现在&#xff0…

ChatGPT的发展,需要量子算力......

光子盒研究院出品 自去年 11 月上线以来,ChatGPT 已被无数人使用,人们一直要求以各种形式让这个大语言模型接入更多数据。3月23日,基于GPT-4的新一代代码生成工具Copilot X正式推出;3 月 24 日,OpenAI 终于宣布部分解除…

5 天内用户数破亿、增速碾压 ChatGPT

来源 | InfoQ,整理 | 凌敏、核子可乐 小扎和马斯克的“格斗”,从八角笼中来到了社交平台上。 当地时间 7 月 5 日,Meta 旗下的 Instagram 正式发布 Threads,与 Twitter 展开直接竞争。据介绍,Threads 的定位是“用文本…

chatgpt赋能python:如何使用Python编写移动应用——将Python编译成APK

如何使用Python编写移动应用——将Python编译成APK 移动应用开发一直是全球最热门的行业之一。对于开发者来说,如何快速有效地开发出高质量的移动应用是至关重要的。Python语言一直以来都是开发者们的最爱,因为具备易于学习、灵活性和可重用性等优点。但…

chatgpt赋能python:如何使用Python将应用程序打包成APK文件

如何使用Python将应用程序打包成APK文件 如果你是一名Python开发人员,并且想要将你的应用程序打包成APK文件以供Android平台使用,那么你来到了正确的地方。在本文中,我们将向你展示如何使用Kivy和Python-for-Android将Python应用程序转换为A…