微软提出AIGC新“玩法”,图灵奖得主Yoshua Bengio也来了!

56a1c2d8141e546adad7a5b80c84d896.gif

在AIGC取得举世瞩目成就的背后,基于大模型、多模态的研究范式也在不断地推陈出新。微软研究院作为这一研究领域的佼佼者,与图灵奖得主、深度学习三巨头之一的Yoshua Bengio一起提出了AIGC新范式——Regeneration Learning。这一新范式究竟会带来哪些创新变革?本文作者将带来他的深度解读。

作者 | 谭旭

AIGC(AI-Generated Content)在近年来受到了广泛关注,基于深度学习的内容生成在图像、视频、语音、音乐、文本等生成领域取得了非常瞩目的成就。不同于传统的数据理解任务通常采用表征学习(Representation Learning)范式来学习数据的抽象表征,数据生成任务需要刻画数据的整体分布而不是抽象表征,需要一个新的学习范式来指导处理数据生成的建模问题。

为此,微软研究院的研究员和深度学习/表征学习先驱Yoshua Bengio一起,通过梳理典型的数据生成任务以及建模流程,抽象出面向数据生成任务的学习范式Regeneration Learning。该学习范式适合多种数据生成任务(图像/视频/语音/音乐/文本生成等),能够为开发设计数据生成的模型方法提供新的洞见和指导。

037ea689ce1255ea34e2ec5973cf4e71.png

论文:Regeneration Learning: A Learning Paradigm for Data Generation

链接:https://arxiv.org/abs/2301.08846 

1f1d7b807331bb73d09ff79694a5c3ec.png

为什么是Regeneration Learning?

什么是数据理解与数据生成?

机器学习中一类典型的任务是学习一个从源数据X到目标数据Y的映射,比如在图像分类中X是图像而Y是类别标签,在文本到语音合成中X是文本而Y是语音。根据X和Y含有信息量的不同,可以将这种映射分成数据理解(Data Understanding)、数据生成(Data Generation)以及两者兼有的任务。图1显示了这三种任务以及X和Y含有的相对信息。

9e3e3f7c0ad77cb3b0606bb63145dea9.png

图1:机器学习中常见的三种任务类型以及X和Y含有的相对信息量

X和Y的信息差异导致了采用不同的方法来解决不同的任务:

  • 对于数据理解任务,X通常比较高维、复杂并且比Y含有更多的信息,所以任务的核心是从X学习抽象表征来预测Y。因此,深度学习中非常火热的表征学习(Representation Learning,比如基于自监督学习的大规模预训练)适合处理这类任务。

  • 对于数据生成任务,Y通常比较高维、复杂并且比X含有更多的信息,所以任务的核心是刻画Y的分布以及从X生成Y。

  • 对于数据理解和生成兼有的任务,它们需要分别处理两者的问题。

数据生成任务面临的独特挑战

数据生成任务面临独特的挑战包括:

  • 因为Y含有很多X不含有的信息,生成模型面临严重的一对多映射(One-to-Many Mapping)问题,增加了学习难度。比如在图像生成中,类别标签“狗”对应不同的狗的图片,如果没有合理地学习这种一对多的映射,会导致训练集上出现过拟合,在测试集上泛化性很差。

  • 对于一些生成任务(比如文本到语音合成,语音到说话人脸生成等),X和Y的信息量相当,会有两种问题,一种是X到Y的映射不是一一对应,会面临上面提到的一对多映射问题,另一种是X和Y含有虚假关联(Spurious Correlation,比如在语音到说话人脸生成中,输入语音的音色和目标说话人脸视频中的头部姿态没有太大关联关系),会导致模型学习到虚假映射出现过拟合。

    33a7f16d73e0e9cbfcfac458101b0322.png

为什么需要Regeneration Learning

深度生成模型(比如对抗生成网络GAN、变分自编码器VAE、自回归模型AR、标准化流模型Flow、扩散模型Diffusion等)在数据生成任务上取得了非常大的进展,在理想情况下可以拟合任何数据分布以实现复杂的数据生成。但是,在实际情况中,由于数据映射太复杂,计算代价太大以及数据稀疏性问题等,它们不能很好地拟合复杂的数据分布以及一对多映射和虚假映射问题。类比于数据理解任务,尽管强大的模型,比如Transformer已经取得了不错的效果,但是表征学习(近年来的大规模自监督学习比如预训练)还是能大大提升性能。数据生成任务也迫切需要一个类似于表征学习的范式来指导建模。

因此,我们针对数据生成任务提出了Regeneration Learning学习范式。相比于直接从X生成Y,Regeneration Learning先从X生成一个目标数据的抽象表征Y’,然后再从Y’生成Y。这样做有两点好处:

  • X→Y’ 相比于X→Y的一对多映射和虚假映射问题会减轻;

  • Y’→Y的映射可以通过自监督学习利用大规模的无标注数据进行预训练。

    3a886492af02a1dca3ddf886128f70af.png

Regeneration Learning的形式

Regeneration Learning的基本形式/Regeneration Learning的步骤

Regeneration Learning一般需要三步,包括:

  • 将Y转化成抽象表征Y’。转换方法大体上可分为显式和隐式两种,如表1中Basic Formulation所示:显式转换包括数学变换(比如傅里叶变换,小波变换),模态转换(比如语音文本处理中使用的字形到音形的变换),数据分析挖掘(比如从音乐数据抽取音乐特征或者从人脸图片中抽取3D表征),下采样(比如将256*256图片下采样到64*64图片)等;隐式转换,比如通过端到端学习抽取中间表征(一些常用的方法包括变分自编码器VAE,量化自编码器VQ-VAE和VQ-GAN,基于扩散模型的自编码器Diffusion-AE)。

b73fcfc0243e042c1ce0acc6b5374d0e.png

表1:Y→Y’转换的不同方法

  • 步骤2:从X生成Y’。可以使用任何生成模型或者转换方法,以方便做X→Y’映射。

  • 步骤3:从Y’生成Y。通常采用自监督学习,如果从Y转化为Y’采用的是隐式转换学习比如变分自编码器,那可以使用学习到的解码器来从Y’生成Y。

如表1中Extended Formulation所示,一些方法可以看成是Regeneration Learning的扩展版本,比如自回归模型AR,扩散模型Diffusion,以及迭代式的非自回归模型等。在自回归模型中,Y_{<t}可以看成是Y_{<t+1}的简化表征,在Diffusion模型中,Y_{t+1}可以看成是Y_{t}的简化表征,和基础版的Regeneration Learning不同的是,它们都需要多步生成而不是两步生成。

Regeneration Learning和Representation Learning的关系

f567c99e52e5b26ac3fea5d0061fc31c.png

图2:Regeneration Learning和Representation Learning的对比

如图2所示,Regeneration Learning可以看成是传统的Representation Learning在数据生成任务中的对应:

  • Regeneration Learning处理目标数据Y的抽象表征Y’来帮助生成,而传统的Representation Learning处理源数据X的抽象表征X’来帮助理解;

  • Regeneration Learning中的Y’→Y和Representation Learning中的X→X’ 都可以通过自监督的方式学习(比如大规模预训练);

  • Regeneration Learning中的X→Y’和Representation Learning中的X’→Y都比原来的X→Y更加简单。

    dfb3e0548420977bba6254e2b99e9e7c.png

Regeneration Learning的方法研究以及实际应用

Regeneration Learning的研究机会

Regeneration Learning作为一种面向数据生成的学习范式,有比较多的研究问题。如表2所示,包括如何从Y获取Y’以及如何更好地学习X→Y’以及Y’→Y等,详细信息可参见论文。 

3deb8ee18138c6d6549bc01155c23684.png

表2:Regeneration Learning的研究问题

Regeneration Learning在数据生成任务中的应用条件

Regeneration Learning在语音、音频、音乐、图像、视频、文本等生成中有着广泛的应用,包括文本到语音合成,语音到文本识别,歌词/视频到旋律生成,语音到说话人脸生成,图像/视频/音频生成等,如表3所示。

ac144153c4d5086aabb3054e3dbf08ac.png

表3:一些利用Regeneration Learning的数据生成任务

总的来讲,只要满足以下几点要求,都可以使用Regeneration Learning:

  • 目标数据太高维复杂;

  • X和Y有比较复杂的映射关系,比如一对多映射和虚假映射;

  • X和Y缺少足够的配对数据。

最近流行的数据生成模型及其在Regeneration Learning范式下的表示

下面简单梳理了近年来在AIGC内容生成领域的一些典型的模型方法,比如文本到图像生成模型DALL-E 1、DALL-E 2和Stable Diffusion,文本到音频生成模型AudioLM和AudioGen,文本到音乐生成模型MusicLM,文本生成模型GPT-3/ChatGPT,它们都可以被看作是采用了Regeneration Learning类似的思想,如表4所示。

9d9aecb96b326cb99f4a4a5aa5b5afd3.png

表4:最近比较受关注的数据生成模型及其在Regeneration Learning范式下的表示

机器学习/深度学习依赖于学习范式指导处理各种学习问题,例如传统的机器学习,包括有监督学习、无监督学习、强化学习等学习范式。在深度学习中,有针对数据理解任务的表征学习。微软研究员们和深度学习/表征学习先驱Yoshua Bengio一起面向数据生成任务提出了针对性的学习范式Regeneration Learning,希望能指导解决数据生成任务中的各种问题。微软亚洲研究院机器学习组的研究员们,将Regeneration Learning的思想应用到各类生成任务中,比如文本到语音合成,歌词到旋律生成,语音到说话人脸生成等,详情请见:https://ai-creation.github.io/。

364a18c3cff88542970c21bf51696014.png

结语

本篇文章介绍了微软亚洲研究院机器学习组在AIGC数据生成方面的研究范式工作,首先指出了数据生成面临的挑战以及新的学习范式的必要性,然后介绍了Regeneration Learning的具体形式、与Representation Learning的关系、当前流行的数据生成模型在该范式下的表示,以及Regeneration Learning潜在的研究机会。希望Regeneration Learning能够很好地指导解决数据生成任务中的各种问题。在这一研究方向上,机器学习组还开展了模型结构和建模方法以及具体的生成任务方面的研究,欢迎继续关注我们的其他文章!

作者简介

4b4449e08b9cad72907d33bb229ba095.png

谭旭,微软亚洲研究院高级研究员

研究领域为深度学习及AI内容生成。发表论文100余篇,研究工作如预训练语言模型MASS、语音合成模型FastSpeech、AI音乐项目Muzic受到业界关注,多项成果应用于微软产品中。研究主页:https://ai-creation.github.io/

ceb163a7791d71f91bf1371ab4977345.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/51652.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【AI 简报20201018期】英伟达开源「Imaginaire」、智能手表争夺战是如何打响的?

导读&#xff1a;本期为 AI 简报 20201018期&#xff0c;将为您带来过去一周关于 AI 新闻 9 条&#xff0c;其他互联网圈内新闻 8 条&#xff0c;希望对您有所帮助~ 有更好的建议或者意见请在下方留言~ AI 1. 图神经网络新课上架&#xff1a;宾大2020秋季在线课程开课&#xff…

英伟达 CEO 黄仁勋分享人工智能的五大应用场景

3 月 21 日&#xff0c;英伟达 CEO 黄仁勋在 GTC 2023 上分享了人工智能的五大应用场景&#xff0c;生成式AI 、科学计算赫然在列。 ☞英特尔首席架构师&#xff0c;GPU 大牛 Raja Koduri 突然离职&#xff0c;开启 AI 创业 ☞GPT-4 挑战当老板&#xff0c;目标&#xff1a;用 …

继推出首个元宇宙平台后,英伟达CEO黄仁勋又获半导体行业最高荣誉

8 月 12 日&#xff0c;美国半导体行业协会&#xff08;SIA&#xff09;宣布&#xff0c; 将授予英伟达&#xff08;NVIDIA&#xff09;创始人兼 CEO 黄仁勋罗伯特诺伊斯奖&#xff08;Robert N. Noyce Award&#xff09;。 诺伊斯奖由 SIA 每年颁发一次&#xff0c;用以表彰在…

吴恩达亲自撰文!黄仁勋入选《时代》100人,马斯克,库克均上榜

新智元报道 来源&#xff1a;Time 【导读】今天&#xff0c;时代周刊公布了2021全球百大最具影响力人物。在科技领域&#xff0c;英伟达CEO黄仁勋、SpaceX和特斯拉CEO马斯克、苹果CEO库克入选。 《时代》100人&#xff0c;黄仁勋入选&#xff01; 英伟达CEO黄仁勋将英伟达打…

黄仁勋口述:英伟达的发展之道和星辰大海

来源&#xff5c;wandb.ai 翻译&#xff5c;刘畅 线上对话还未进入后半程&#xff0c;黄仁勋表示自己有点犯困。早前&#xff0c;当天凌晨三点钟&#xff0c;这位英伟达CEO就起床看书了&#xff0c;这个时间确实有点早&#xff0c;看起来在白天也没能补充一些休息时间。即便如此…

【历史上的今天】2 月 17 日:谷歌收购 Blogger;英伟达创始人出生;微软发布 Windows 2000

整理 | 王启隆 透过「历史上的今天」&#xff0c;从过去看未来&#xff0c;从现在亦可以改变未来。 今天是 2023 年 2 月 17 日&#xff0c;在 1996 年的今天&#xff0c;IBM 的超级计算机“深蓝”首次挑战卡斯帕罗夫落败。“深蓝”首次挑战虽然最终败北&#xff0c;但却赢得了…

问卷调查+需求分析(部分)

&#xff08;从word复制过来格式真的会变啊&#xff01;好难过&#xff01;不想排版了&#xff01;大家凑合着看吧&#xff01;有不合理的地方麻烦大家指出来&#xff01;&#xff09; 一、问卷内容的确定 二、问卷测试&#xff08;2019/03/12&#xff09; a) 测试者&#xff…

问卷调查设计-SurveyJS的使用(定制)

前言 距离上一次记录SurveyJS的文章已经过去大半个月了&#xff0c;也该完结一下子了&#xff0c;正好项目结束&#xff0c;抽出时间记录一下使用SurveyJS过程中的做的一些自定义配置需要哪些方法及属性&#xff08;这里根据个人项目需要做的一些方法总结&#xff0c;不包含全…

【源码】问卷调查系统的设计与实现

源码分享&#xff01; 源码描述&#xff1a; 1.基本信息维护 2.添加题目类别 3.题目类别管理 4.添加测试题 5.测试题管理 6.添加调查 7.调查管理 8.调查结果列表 技术特点&#xff1a; 1、采用典型的三层架构&#xff0c;代码结构比较清晰 2、界面比较精美&#xff0c;功能比较…

(二)市场调查大赛系列——市场调查问卷设计

目录 一、设计问卷步骤 二、调查问卷题目类型 三、调查问卷答案类型 四、调查问卷的结构 五、调查方案的框架 六、设计问卷的原则 一、设计问卷步骤 将选题具体化、拆分选题确定分析框架 描述性分析解释性分析/推断性分析&#xff0c;找到变量&#xff0c;后续深入研究…

用“平面两点距离”求三角形面积,再用“三角形面积”多边形面积

不小于 3 边的多边形&#xff0c;都可以任一顶点发出的边切分为 n - 2 个三角形。 【学习的细节是欢悦的历程】 Python 官网&#xff1a;https://www.python.org/ Free&#xff1a;大咖免费“圣经”教程《 python 完全自学教程》&#xff0c;不仅仅是基础那么简单…… 地址&am…

对折纸张厚度超过珠峰

对折 0.1 毫米的纸张&#xff0c;循环对折&#xff0c;超过珠峰高度输出对折次数。 【学习的细节是欢悦的历程】 Python 官网&#xff1a;https://www.python.org/ Free&#xff1a;大咖免费“圣经”教程《 python 完全自学教程》&#xff0c;不仅仅是基础那么简单…… 地址&a…

统计字符串字符出现的次数

输入一个字符串&#xff0c;输出字符及相应字符出现的次数。 【学习的细节是欢悦的历程】 Python 官网&#xff1a;https://www.python.org/ Free&#xff1a;大咖免费“圣经”教程《 python 完全自学教程》&#xff0c;不仅仅是基础那么简单…… 地址&#xff1a;https://lqp…

while 循环、if 条件判断,同心协力打造「模拟“春节集五福”活动」程序

while 循环&#xff0c; if 条件判断组合发力解题。根据近两年流行的春节集五福活动&#xff0c;编写一个模块&#xff0c;实现模拟春节集五福的过程。 【学习的细节是欢悦的历程】 Python 官网&#xff1a;https://www.python.org/ Free&#xff1a;大咖免费“圣经”教程《 p…

2023 年 6 月最新绿色软件来了

2023 年6月继续分享实用Windows绿色软件系列&#xff0c;不用安装即可使用&#xff0c;在公众号苏生不惑后台对话框回复关键词 2023616 获取下载地址&#xff0c;之前分享过的都同步到我的博客了 https://sushengbuhuo.github.io/blog LastActivityView 这个工具可以显示用户进…

百度工程师浅谈分布式日志

作者 | 文库基础架构 导读 introduction 我们做软件开发时&#xff0c;或多或少的会记录日志。由于日志不是系统的核心功能&#xff0c;常常被忽视&#xff0c;定位问题的时候才想起它。本文由浅入深的探讨不起眼的日志是否重要&#xff0c;以及分布式架构下的日志运维工具应该…

套用bi模板,轻松搞定各类数据分析报表

bi模板是什么?是一个个提前预设的报表设计&#xff0c;套用后立即生效&#xff0c;轻轻松松搞定bi数据可视化分析报表。bi模板都有哪些类型&#xff1f;怎么套用&#xff1f;以奥威bi数据可视化软件为例&#xff0c;聊聊bi模板的种类和下载使用。 bi模板有哪些&#xff1f; …

企业级Web报表工具告诉你财务要做哪些数据分析

现如今企业财务都实现了电子化&#xff0c;这意味着我们企业的财务人员要将庞大的财务数据录入计算机。现在大部分财务人员都采用传统Excel的方式进行财务报表制作和分析&#xff0c;不但要投入大量的时间和精力&#xff0c;而且易出错、效率低。 最近小编发现了一个企业级Web…

西米支付:微信支付接口(申请与介绍)

据统计&#xff0c;2022年微信全球用户数超12.8亿&#xff0c;其中微信支付使用人数达到6亿&#xff0c;而且微信支付在中国移动支付的市场份额超过40%&#xff0c;无论是在线上购物&#xff0c;还是线下收款&#xff0c;都能看到微信支付的身影&#xff0c;微信支付已经融入到…

IEEE Trans、Journal 和 Letter 的论文格式要求

目录 论文标题 作者 摘要 索引术语/关键词 作者信息脚注 简介 Word模板使用 缩写和缩略语 数学公式 图的制作和提交 IEEE图的类型 多部分图 图形的文件格式 图形尺寸 分辨率 矢量图 颜色空间 图中字体 图中标签 坐标轴标签 多部分图中子图和表的标签 对本…