谷歌 AI 编舞师,连张艺兴最喜欢的 Krump 都不在话下

编译 | 禾木木

出品 | AI科技大本营(ID:rgznai100)

舞蹈一直是文化、仪式和庆祝活动的重要组成部分,也是一种自我表达的方式。今天,存在多种形式的舞蹈,从舞厅到迪斯科。然而,舞蹈是一种需要练习的艺术形式。通常需要专业培训才能为具有多种舞蹈动作的舞者创作富有表现力的编舞。虽然这个过程对人们来说很困难,但对于 ML 模型来说要困难得多,因为任务涉及产生具有高电影复杂性的连续运动,以及运动与伴随音乐之间的非线性关系。

这次谷歌用 Transformer 制作了一个会根据音乐跳舞的 AI 。

无论是动作还是风格都能完美驾驭,你 pick 哪个舞种呢

舞蹈风格的由来

谷歌的这项新研究引入了全注意力跨模态 Transformer (FACT) 模型,该模型可以模仿和理解舞蹈动作,甚至可以提高一个人编舞的能力。

除此之外,该团队还发布了 AIST++,这是一个大规模、多模态的 3D 舞蹈动作数据集。该数据集包含 5.2 小时的 3D 舞蹈动作,包含 1408 个序列,涵盖十种舞蹈类型,每一种都有多视图视频和已知的姿势。他们的研究结果表明,在对 AIST++ 的广泛用户研究中,FACT 模型优于当前最先进的方法。

为了创建 3D 运动数据集,研究人员使用了现有的 AIST 舞蹈数据库,这是一组带有音乐伴奏但没有 3D 信息的舞蹈电影。

AIST有十种舞蹈风格:Old School(Break、Pop、Lock和Waack)和New School(Break、Pop、Lock和Waack)(Middle Hip-Hop、LA-style Hip-Hop、House、Krump,街头爵士和芭蕾爵士)。虽然它提供了舞者的多视图视频,但这些相机并没有校准。

他们能够用广泛使用的 SMPL 3D 模型中的参数重建相机校准参数和 3D 人体运动。生成的数据库 AIST++ 是一个大规模的 3D 人类舞蹈动作数据集,具有与音乐匹配的各种 3D 动作。

十种舞蹈风格都均匀地呈现在动作中,涵盖了每分钟节拍数 (BPM) 的各种音乐节奏。每种舞蹈类型都有 85% 的基本动作和 15% 的高级动作(更长的编舞由舞者自由设计)。AIST++数据集还包括多视图同步图片数据,可用于各种研究领域,包括2D/3D、姿态估计。

该模型必须学习音频和运动之间的一对多映射,这在跨模态序列到序列合成中提出了一个独特的问题。他们使用 AIST++ 创建不重叠的训练和测试子集,确保它们之间不会共享编舞或音乐。

FACT 模型

该团队使用 FACT 模型数据集训练,并根据音乐生成 3D 舞蹈。该模型使用独立的运动和音频转换器,首先对种子运动和音频输入进行编码,然后将嵌入连接起来并传送到跨模态转换器,学习两种模态如何对应并生成 N 个未来的运动序列。然后利用这些序列来自我监督模型的训练,端到端,三个变压器都是一起学习的。他们在测试时在自回归框架中使用此模型,并将预期运动作为下一代阶段的输入。因此,FACT 模型可以生成逐帧的远程舞蹈动作。

为了让 AI 生成的舞蹈生动且和音乐风格保持一致,FACT 模型设计主要是以下三个关键设计点:

  • 由于内部 token 可以访问所有输入,因此所有 transformer 都使用全注意mask,这比传统的因果模型更具表现力。

  • 他们不是只预测下一个动作,而是训练模型来预测当前输入之外的 N 个后续动作。这有助于模型关注上下文,避免模型在经过几个生成步骤后出现运动停滞或发散。

  • 此外,在训练过程他们还使用一个 12 层深的跨模态transformer 模块来融合两个embedding(运动和音频)。研究人员表示,这对于训练模型倾听分辨音乐至关重要。

FACT 和三种 SOTA 对比结果

研究人员根据三个指标评估模型的性能:

  • 动作质量:为了确定运动质量,他们计算了 Frechet 起始距离 (FID),即 AIST++ 测试集的真实舞蹈运动序列与 40 个模型生成的运动序列之间的距离,每个序列具有 1200 帧(20 秒)。

  • 动作多样性:他们计算了 AIST++ 测试集上 40 个创建的运动的特征空间中的平均欧式距离。分别用几何特征空间Distg和动力学特征空间k来检验模型生成各种舞蹈动作的能力。

  • 动作与音乐的相关性:他们提出了一种称为 Beat Alignment Score 的新指标,用于评估输入音乐(音乐节拍)和输出 3D 运动(运动节拍)之间的关联,因为不存在设计良好的指标 (BeatAlign)。

他们将 FACT 和三种 SOTA 模型的对比结果:

图片

结果表明,与之前的方法(如 DanceNet 和 Li 等人)相比,使用 FACT 模型生成的 3D 舞蹈更逼真,并且与输入音乐的关联性更好。

图片

对于此项研究,你怎么看呢?

你更喜欢哪个舞种呢?

Paper: 

https://arxiv.org/abs/2101.08779

Project: 

https://google.github.io/aichoreographer/

GitHub: 

https://github.com/google-research/mint

Dataset: 

https://google.github.io/aistplusplus_dataset/

Model: 

https://github.com/google-research/mint

Source: 

https://ai.googleblog.com/2021/09/music-conditioned-3d-dance-generation.html

参考链接:

https://www.marktechpost.com/2021/09/15/google-ai-introduces-full-attention-cross-modal-transformer-fact-model-and-a-new-3d-dance-dataset-aist/

本文由AI科技大本营翻译,转载请注明出处。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37034.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自己再造一个大规模预训练语言模型?可以的

1. 引言 自ChatGPT发布至今已近半年,一路走来,我们可以清楚地看到的一个趋势是,到了下半年,每位研究者都会拥有一个类似ChatGPT的模型。这种现象与当年BERT推出后,各种BERT变体层出不穷的情况颇为相似。实际上&#x…

或许,我们都错怪百度了,你原本可以从它那里获得更多......

纵观整个中国互联网发展史,有一家公司不得不提,那就是百度。 但是,如果提起百度,很多人都会发出一声叹息。 这叹息中有对百度错失移动互联网的遗憾,有对百度过度追求营销的憎恶,还有对百度时运不济的感慨…

鏖战大模型,未必能拯救商汤

在不被资本市场看好的质疑声中,商汤科技于近日跟风推出了自己的大模型产品,而且还直接打造了一个大模型超市,声称包括CV(计算机视觉)、NLP(​​​​​​​自然语言处理)、AIGC(人工智…

寻找机器人:为什么我们不应该“隐藏人类”

声明:本文是 Suzanne Ambiel 所著文章《Spot the Bot: Or Why We Shouldn’t “Hide the Human”》的中文译文。 原文链接:https://blogs.vmware.com/opensource/2023/02/09/spot-the-bot-generative-ai-open-source-community/?utm_sourcerss&utm_…

20亿,被收购。

美团出手 之前和大家聊过,以 ChatGPT 为代表的 AI,已经被确认是接下来10-20年互联网发展方向。 于是各路大佬纷纷重启创业,比如李开复、曾经搜狗王小川、当然还有声势最大的王慧文创建的光年之外。 也是第一个站出来,发英雄帖的大…

摩托罗拉背后的高尔文家族 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 6 月 27 日,在 1972 年的今天,Syzygy Engineering 更名为 Atari(雅达利),这家公司迅速成为了街机、家…

【企业架构设计实战】1 企业架构方法论

图:甘泉大峡谷 企业架构方法论概述 什么是方法论? 百度百科对方法论的定义:方法论,就是关于人们认识世界、改造世界的方法的理论。 方法论,即“方法”+“论”。 首先,它是解决某种问题领域的方法的方法,这个方法更加体系化、全面化,并且有足够的通用性和普适性,如前文…

如何利用 OpenAI 的 API 提供一系列命令行包装函数?

未来几个月或者几年内,真正出现差异化的将是开发人员的生产力。对于积极地将人工智能融入到工作流程的工程师来说,这将是一个巨大的优势。 原文链接:https://kadekillary.work/posts/1000x-eng/ 未经授权,禁止转载! 译…

ChatGPT的一些好玩用途,有些你绝对想不到!

hello 大家好,今天我们来分享一篇有价值的ChatGPT如何去玩的教程 这里是一个快捷链接: 使用 这里是一个快捷链接: 使用 这里是一个快捷链接: 使用 这里是一个快捷链接: 使用 这里是一个快捷链接: 使用…

ChatGLM2-6B! 我跑通啦!本地部署+微调(windows系统)

ChatGLM2-6B! 我跑通啦!(windows系统) 1. 跑通了啥?2. 咋跑通的?2.1 ChatGLM2-6B本地部署2.2 ChatGLM2-6B本地微调2.3 小结 3. 打算做什么? 1. 跑通了啥? 记录一下此时此刻,2023年7…

详细Pygame制作贪吃蛇

贪吃蛇的玩法 用游戏把子上下左右控制蛇的方向,寻找吃的东西,每吃一口就能得到一定的积分,而且蛇的身子会越吃越长,身子越长玩的难度就越大,不能碰墙,不能咬到自己的身体,更不能咬自己的尾巴。…

用Pygame制作简单的贪吃蛇

✨✨✨ 感谢优秀的你打开了小白的文章 “希望在看文章的你今天又进步了一点点,离美好生活更近一步!”🌈 前言 Python Pygame 是一款专门为开发和设计 2D 电子游戏而生的软件包,它支 Windows、Linux、Mac OS 等操作系统&#xff0…

用vb.net制作贪吃蛇游戏

贪吃蛇游戏相信很多朋友都听说或者玩过,特别是以前使用过诺基亚手机的朋友,这在当时就是诺基亚手机的专配游戏。 本篇文章讲述如何在vb.net中编写此游戏代码。 一种方法是可以使用控件数组,在用户界面上使用如多个图片框构成整个背景&#xf…

用python自带的tkinter做游戏(一)—— 贪吃蛇 篇

用python自带的tkinter做游戏(一)—— 贪吃蛇 篇 本人新手,刚自学python满半年,现分享下心得,希望各位老手能指点一二,也希望和我一样的新手能共勉,谢谢~ 大家都知道用python做游戏用的比较多的…

python笔记—>贪吃蛇游戏制作

1、安装需要的库pygame Python Pygame 是一款专门为开发和设计 2D 电子游戏而生的软件包,它支 Windows、Linux、Mac OS 等操作系统,具有良好的跨平台性。Pygame 由 Pete Shinners 于 2000 年开发而成,是一款免费、开源的的软件包&#xff0…

手把手教你使用 Python 制作贪吃蛇游戏

贪吃蛇游戏是有史以来最受欢迎的街机游戏之一。在这个游戏中,玩家的主要目标是在不撞墙或不撞墙的情况下抓住最大数量的水果。在学习 Python 或 Pygame 时,可以将创建蛇游戏视为一项挑战。这是每个新手程序员都应该接受的最好的初学者友好项目之一。学习…

使用pygame制作贪吃蛇小游戏

使用pygame制作贪吃蛇小游戏 开发基本思路效果展示 具体实施步骤制作窗口,插入音频与图片绘制蛇与果实按键控制生成食物死亡设置其他设置 整体代码 开发基本思路 1、制作窗口,插入音频与图片 2、绘制蛇与果实 3、按键控制 4、生成食物 5、结束判断 效果…

应对新的挑战!ChatGPT将如何改变多域作战?

​公众号博主推送内容,未经许可,不得转载或者引用。 原文:Exploring the Possibilities of ChatGPT in Rugged Military AI Applications 《ChatGPT:利用最先进的技术支撑多域作战》 ChatGPT是一款基于GPT-3大型自然语言模型的…

Unity 接入巨量引擎今日头条广告投放SDK

巨量引擎 头条上报SDK接入 1.进入巨量引擎平台 ① 下载头条上报SDK SDK接入文档 我用的是5.3.0的官网上是3.3.12 SDK下载完了之后。 ②将unity工程导出android 工程。然后将下载的aar包导入UnityLibrary/libs文件夹下(如图文件夹) 并在改build.gradle文…

字节跳动 AI Lab 火山翻译在 WMT2022 非洲语向任务夺得桂冠

动手点关注 干货不迷路 1. 非洲语言的现状 非洲是世界上面积第二大的大洲,也是世界上第二个人口大洲,其大陆上存在 2146 种语言——约占世界语言总数的三分之一。广袤的面积、繁多的种族,还有宗教传播和殖民统治的影响,使其成为世…