重磅研究!32篇论文硬核盘点2022年度AI热点

  新智元报道  

编辑:编辑部

【导读】2022超全的AI圈研究合集在这!知名博主Louis Bouchard自制视频讲解加短篇分析,对小白也超级友好。

虽然世界仍在复苏,但研究并没有放慢其狂热的步伐,尤其是在人工智能领域。

此外,今年人们对AI伦理、偏见、治理和透明度都有了新的重视。

人工智能和我们对人脑的理解及其与人工智能的联系在不断发展,在不久的将来,这些改善我们生活质量的应用将大放光彩。

知名博主Louis Bouchard也在自己的博客中盘点了2022年32项(!)AI技术突破。

接下来让我们一起看看,这些令人惊艳的研究都有哪些吧!

f064d5a72de43f8c8efc3c2cb9dd72c1.png

文章地址:https://www.louisbouchard.ai/2022-ai-recap/

LaMA:基于傅里叶卷积的分辨率稳健的大型掩码修复

你肯定经历过这种情况:你和你的朋友拍了一张很棒的照片。结果,你发现有人在你身后,毁了你要发到朋友圈或者小红书的照片。但现在,这不再是问题。

基于傅里叶卷积的分辨率稳健的大型掩码修复方法,可以让使用者轻松清除图像中不需要的内容。不论是人,还是垃圾桶都能轻松消失。

它就像是你口袋里的专业ps设计师,只需轻轻一按,就能轻松清除。

虽然看似简单,但图像修复是许多AI研究人员长期以来一直需要解决的问题。

b977d4cd5f84b5ab09f9f26105d4a56f.png

论文链接:https://arxiv.org/abs/2109.07161

项目地址:https://github.com/saic-mdal/lama

Colab Demo:https://colab.research.google.com/github/saic-mdal/lama/blob/master/colab/LaMa_inpainting.ipynb

9f5a3c1b483d0b0bb83b8a51088d63d5.png

视频讲解:https://youtu.be/Ia79AvGzveQ

短篇分析:https://www.louisbouchard.ai/lama/

STIT:基于GAN的真实视频人脸编辑

你肯定有过这样的经历:在看电影时,会发现电影中的演员看起来要比本人年轻得多。

438969bd6d3e362d62e085e5a3fd9860.jpeg

《双子杀手》中的威尔·史密斯

之前,这需要专业人员花费数百甚至数千小时的工作,手动编辑这些演员出现的场景。但利用AI,你可以在几分钟内完成。

事实上,许多技术可以让你增加笑容,让你看起来更年轻或更老,所有这些都是使用基于人工智能的算法自动完成的。它在视频中被称为基于AI的面部操作(AI-based face manipulations),代表了2022年的最新技术水平。

49366eaf4848dad220636b95fc741b2f.png

论文链接:https://arxiv.org/abs/2201.08361

项目地址:https://github.com/rotemtzaban/STIT

b68b7aea7c61559948723ad7d218e03a.gif

视频讲解:https://youtu.be/mqItu9XoUgk

短篇分析:https://www.louisbouchard.ai/stitch-it-in-time/

NeROIC:利用在线图库的神经渲染

神经渲染可以通过物体、人物或场景的图片,在空间中生成逼真的3D模型。

有了这项技术,你只需拥有某物体的几张图片,就可以要求机器了解这些图片中的物体,并模拟出它在空间中的样子。

通过图像来理解物体的物理形状,这对人类来说很容易,因为我们了解真实的世界。但对于只能看到像素的机器来说,这是一个完全不同的挑战。

生成的模型如何融入新场景?如果照片的光照条件和角度不同,生成的模型也会因此变化,该怎么办?这些都是Snapchat和南加州大学在这项新研究中需要解决的问题。

65c8efa68588a133a1b1930b9869039c.png

论文链接:https://arxiv.org/abs/2201.02533

项目地址:https://github.com/snap-research/NeROIC

aa3009d9a814ca0f9f4544dbf78bc703.gif

视频讲解:https://youtu.be/88Pl9zD1Z78

短篇分析:https://www.louisbouchard.ai/neroic/

SpeechPainter:文本条件下的语音修复

对于图像来说,基于机器学习的修复技术不仅可以移除其中的内容,而且还能根据背景信息填充图像的缺失部分。

对于视频修复来说,其挑战在于不仅要保持帧与帧之间的一致性,而且要避免生成错误的伪影。同时,当你成功地将一个人从视频中「踢出去」之后,还需要把他/她的声音也一并删除才行。

为此,谷歌的研究人员提出了一种全新的语音修复方法,可以纠正视频中的语法、发音,甚至消除背景噪音。

3033355faa1e6dcc21784915fd4d5c3b.png

论文链接:https://arxiv.org/abs/2202.07273

815a7042da6578ae9a3b9127515f166f.gif

视频讲解:https://youtu.be/zIIc4bRf5Hg

短篇分析:https://www.louisbouchard.ai/speech-inpainting-with-ai/

GFP-GAN:利用生成性面部先验,实现真实世界的盲脸修复

你是否有一些珍藏的旧照片,因为年代久远而画质模糊?不用担心,有了盲脸修复技术(Blind Face Restoration),你的回忆会被历久弥新。

这个全新且免费的AI模型可以在一瞬间修复你的大部分旧照片。即使修复前的照片画质非常低,它也能很好地工作。这在之前通常是一个相当大的挑战。

更酷的是,你可以按照自己喜欢的方式进行尝试。他们已经开源了代码,创建了一个演示和在线应用程序供大家试用。相信这项技术一定让你大吃一惊!

0c24438dcc72e362e9e97659c17efff3.png

论文链接:https://arxiv.org/abs/2101.04061

项目地址:https://github.com/TencentARC/GFPGAN

Colab Demo:https://colab.research.google.com/drive/1sVsoBd9AjckIXThgtZhGrHRfFI6UUYOo

在线应用:https://huggingface.co/spaces/akhaliq/GFPGAN

2dc3a033f5a0efdc1666dfcb004c913c.jpeg

视频讲解:https://youtu.be/nLDVtzcSeqM

短篇分析:https://www.louisbouchard.ai/gfp-gan/

4D-Net:多模态对齐的学习

自动驾驶汽车如何「眼观六路」?

你可能听说过车企正在使用的LiDAR传感器或其他奇怪的相机。但它们是如何工作的,它们如何观察这个世界,以及它们与我们相比究竟看到了什么不同?

82f4cb1bd09178aa853e4e7e14913be9.png

论文链接:https://arxiv.org/abs/2109.01066

与特斯拉只使用摄像头来了解世界不同,大多数自动驾驶汽车厂商,比如Waymo,使用的是普通摄像头和3D LiDAR传感器。

它们不会像普通相机那样生成图像,而是生成3D点云,利用RGB传感信息,测量物体之间的距离,计算它们投射到物体的脉冲激光的传播时间。

8d7c00cb5be14524665b8efbf1ee1770.png

尽管如此,我们如何有效地结合这些信息并让车辆理解它?车辆最终会看到什么?自动驾驶是否足够安全?Waymo和谷歌的一篇新研究论文将会解答这些谜题。

0bcb9b7c994a924e91ca16335e2a0b94.gif

视频讲解:https://youtu.be/0nJMnw1Ldks

短篇分析:https://www.louisbouchard.ai/waymo-lidar/

Instant NeRF:基于多分辨率哈希编码的即时神经图元

如何通过照片模拟世界的样子?

使用AI模型,人们可以将拍摄的图像变成高质量的3D模型。这项具有挑战性的任务,让研究人员通过2D图像,创建物体或人在三维世界中的样子。

通过基于哈希编码的神经图元(graphical primitives),英伟达实现5秒训练NeRF,并获得了更好的效果。在不到两年的研究中,将NeRF的训练速度提高了1000多倍。

d59871c9b55386f64079959e22541633.png

论文链接:https://arxiv.org/abs/2201.05989

项目地址:https://github.com/NVlabs/instant-ngp

d5d131577e95a869d331bab3a9427b61.gif

视频讲解:https://youtu.be/UHQZBQOVAIU

短篇分析:https://www.louisbouchard.ai/nvidia-photos-into-3d-scenes/

DALL·E 2:基于CLIP特征的文本生成图像模型

去年,OpenAI发布了文本-图像生成模型DALL·E。现在,升级版DALL·E 2又来了。

DALL·E 2不仅可以从文本生成逼真的图像,其输出的分辨率是前者的四倍!

不过,性能方面的提升好像不足以令OpenAI满足,为此他们还让DALL·E 2学会了一项新技能:图像修复。

也就是说,你可以用DALL·E 2编辑图像,或者添加任何想要的新元素,比如在背景中加上一只火烈鸟。

cb8a68cb677af7b8ceb1cf86e99eec55.png

论文链接:https://arxiv.org/abs/2204.06125

a28cff3994f1c16c5584ce11a3a20ccb.gif

视频讲解:https://youtu.be/rdGVbPI42sA

短篇分析:https://www.louisbouchard.ai/openais-new-model-dall-e-2-is-amazing/

MyStyle:个性化生成先验

谷歌和特拉维夫大学提出了一个非常强大的DeepFake技术。拥有了它,你几乎无所不能。

只需给一个人拍上百张照片,就可以对其图像进行编码,并修复、编辑或创建出任何想要的样子。

这既令人惊奇又令人恐惧,尤其是当你看到生成的结果时。

9830129295462556aec73713e35bbe30.png

论文链接:https://arxiv.org/abs/2203.17272

项目地址:https://mystyle-personalized-prior.github.io/

dbcb4234080aea0a3dcd91ebdc3f3b99.gif

视频讲解:https://youtu.be/BNWAEvFfFvQ

短篇分析:https://www.louisbouchard.ai/mystyle/

OPT:开放预训练的Transformer语言模型

GPT-3如此强大的原因,在于其架构和大小。

它有1750亿个参数,是人类大脑中神经元数量的两倍!如此巨大的神经网络使该模型几乎学习了整个互联网的内容,了解我们如何书写、交换和理解文本。

就在人们惊叹于GPT-3的强大功能时,Meta向开源社区迈出了一大步。他们发布了一个同样强大的模型,并且,该模型已经完全开源了!

该模型不仅也有超过千亿级别的参数,并且,与GPT-3相比,OPT-175B更加开放及便于访问。

304b2813f7ac55000fdd4416e0cd305a.png

论文链接:https://arxiv.org/abs/2205.01068

项目地址:https://github.com/facebookresearch/metaseq

1c0e7982d237ba69409e568dabed1755.gif

视频链接:https://youtu.be/Ejg0OunCi9U

短篇分析:https://www.louisbouchard.ai/opt-meta/

BlobGAN:空间离散的场景表征

对于如何描述一个场景,Adobe研究团队给出了一个新的方法:BlobGAN。

BlobGAN使用「斑点」(blob)来描述场景中的对象。研究人员可以移动这些斑点,将它们变大、变小,甚至可以删除,这对图像中斑点所代表的物体都会产生同样的效果。

正如作者在他们的结果中分享的那样,你可以通过复制斑点,在数据集中创建新的图像。

现在,BlobGAN的代码已经开源,感兴趣的小伙伴,抓紧快上手试试吧!

784e07c0c83d8fe30150ac778385bd01.png

论文链接:https://arxiv.org/abs/2205.02837

项目地址:https://github.com/dave-epstein/blobgan

Colab Demo:https://colab.research.google.com/drive/1clvh28Yds5CvKsYYENGLS3iIIrlZK4xO?usp=sharing#scrollTo=0QuVIyVplOKu

4673e2f2234d1b78a0a3c37fff319b9a.gif

视频讲解:https://youtu.be/mnEzjpiA_4E

短篇分析:https://www.louisbouchard.ai/blobgan/

Gato:通才智能体

DeepMind构建了一个单一的「通用」智能体 Gato。可以玩 Atari 游戏、做字幕图像、与人聊天、还能控制机械臂!

更令人震惊的是,它只训练一次并使用相同的权重,便能完成所有任务。

Gato是一个多模态智能体。这意味着它既可以为图像创建标题,也能作为聊天机器人回答问题。

虽然GPT-3也能陪你聊天,但很明显,Gato可以做到更多。毕竟,能聊天的AI常有,能陪玩游戏的不常有。

aa98d3140bffc0cde8503c519a39fc07.png

论文链接:https://arxiv.org/abs/2205.06175

a15be2e4efc3acc3eab868f0dc6b5c5b.png

视频讲解:https://youtu.be/xZKSWNv6Esc

短篇分析:https://www.louisbouchard.ai/deepmind-gato/

Imagen:具有深度语言理解的文本到图像的扩散模型

如果你认为DALL·E 2很优秀,那么不妨看看这个来自Google Brain的新模型——Imagen——可以做些什么。

DALL·E很神奇,但生成的图像往往缺乏真实感,这就是谷歌团队研发的Imagen所要解决的问题。

根据比较文本到图像模型的基准,Imagen在大型语言模型的文本嵌入对文本-图像的合成方面成效显著。生成的图像既天马行空,又真实可信。

c89559e88807e6c0f5c2bffa153967b5.png

论文链接:https://arxiv.org/abs/2205.11487

项目地址:https://imagen.research.google/

8ce352ab7316aaba3bc19d99c0fab8bf.png

视频讲解:https://youtu.be/qhtYPhPWCsI

短篇分析:https://www.louisbouchard.ai/google-brain-imagen/

DALL·E Mini

一组小扎的惊悚图曾在Twitter上风靡一阵。这组San值狂掉的作品,出自DALL·E mini之手。

作为DALL·E家族的「青春版」,DALL·E mini是胜在免费开源。代码已留,下一个被魔改的人物又会是谁呢?

6fbad32a6221d73004c92a40b250c43a.jpeg

项目地址:https://github.com/borisdayma/dalle-mini

在线体验:https://huggingface.co/spaces/dalle-mini/dalle-mini

视频讲解:https://youtu.be/K3bZXXjW788

短篇分析:https://www.louisbouchard.ai/dalle-mini/

NLLB:不落下任何一种语言

Meta AI发布的这款NLLB-200模型,模型命名理念来自「不落下任何一种语言」(No Language Left Behind),在200多种语言上实现了任意互译。

研究的亮点在于:研究者让大多数低资源语言训练提升多个数量级,同时实现了200+语言翻译的SOTA结果。

73e62d15acef13ab00e3a4da427a5378.png

论文链接:https://research.facebook.com/publications/no-language-left-behind/

项目地址:https://github.com/facebookresearch/fairseq/tree/nllb

在线体验:https://nllb.metademolab.com/

cdaa5534675155745d6867370a205b2c.png

视频讲解:https://youtu.be/2G4NeG17Eis

短篇分析:https://www.louisbouchard.ai/no-language-left-behind/

Dual-Shutter光学振动传感系统

声音也能被看见?

这篇获得CVPR 2022最佳论文荣誉奖的研究,提出了一种新颖的Dual-Shutter方法,通过使用「慢速」相机(130FPS)同时检测多个场景源的高速(高达63kHz)表面振动,并通过捕获由音频源引起的振动来实现。

由此便可以实现乐器的分离、噪音的消除等各种需求。

f7152cc844fa4780db44488ad6ad73be.png

论文链接:https://openaccess.thecvf.com/content/CVPR2022/papers/Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf

项目地址:https://imaging.cs.cmu.edu/vibration/

d45421fa87aca3b1b4af40df6113971f.gif

视频讲解:https://youtu.be/n1M8ZVspJcs

短篇分析:https://www.louisbouchard.ai/cvpr-2022-best-paper/

Make-A-Scene:基于场景且有人类先验的文本到图像生成

Make-A-Scene不仅仅是「另一个DALL·E」。

虽然DALL·E可以根据文本提示生成随机图像,这确实很酷,但同时也限制了用户对生成结果的控制。

而Meta的目标是推动创意表达,将这种文本到图像的趋势与之前的草图到图像模型相结合,从而产生「Make-A-Scene」:文本和草图条件图像生成之间的奇妙融合。

048d6226778af689c8d01a020d8da057.png

论文链接:https://arxiv.org/abs/2203.13131

2f8c2ac9e07c9650f545b4cb0020a6ae.gif

视频讲解:https://youtu.be/K3bZXXjW788

短篇分析:https://www.louisbouchard.ai/make-a-scene/

BANMo:从任意视频中构建目标3D动画模型

基于Meta的这项研究,你只需给定捕获可变形对象的任意视频,比如上传几个小猫小狗的视频,BANMo便可通过将来自数千张图像的2D线索整合到规范空间中,进而重建一个可编辑的动画3D模型,且无需预定义形状模板。

640e1e9f6294833e3635233f95af5fcf.png

论文链接:https://arxiv.org/abs/2112.12761

项目地址:https://github.com/facebookresearch/banmo

edc01a8b6e6d2cc61fab40a75cbf2d75.gif

视频讲解:https://youtu.be/jDTy-liFoCQ

短篇分析:https://www.louisbouchard.ai/banmo/

用潜在扩散模型进行高分辨率图像合成

今年大火的图像生成模型DALL·E、Imagen以及强势出圈的Stable Diffusion,这些强大的图像生成模型有什么共同点?除了高计算成本、大量训练时间之外,它们都基于相同的扩散机制。

扩散模型最近在大多数图像任务中取得了SOTA结果,包括使用DALL·E的文本到图像,还有许多其他与图像生成相关的任务,如图像修复、风格转换或图像超分辨率。

3ba66101a5be7808ea697d2e74eace1f.png

论文链接:https://arxiv.org/abs/2112.10752

项目地址:https://github.com/CompVis/latent-diffusion

b013c8e314d12a4e91c2c7a97d7271c6.gif

视频讲解:https://youtu.be/RGBNdD3Wn-g

短篇分析:https://www.louisbouchard.ai/latent-diffusion-models/

PSG:基于场景的图像生成模型

AI可以帮你准确识别图像中的物体,但是理解物体与环境之间的关系则没有那么轻松。

为此,来自南洋理工对研究人员提出了一种基于全景分割的全场景图生成(panoptic scene graph generation,即PSG)任务。

相比于传统基于检测框的场景图生成,PSG任务要求全面地输出图像中的所有关系(包括物体与物体间关系,物体与背景间关系,背景与背景间关系),并用准确的分割块来定位物体。

b8887a41d0d132deb134b883c5d58b50.png

论文链接:https://arxiv.org/abs/2207.11247

项目地址:https://psgdataset.org/

在线应用:https://huggingface.co/spaces/ECCV2022/PSG

fa7c198cbac02960e59f22cbf4b58b17.gif

视频讲解:https://youtu.be/cSsE_H_0Cr8

短篇分析:https://www.louisbouchard.ai/psg/

利用文本反转实现文本到图像的个性化生成

今年各大厂的图像生成模型可谓是八仙过海各显神通,但是如何让模型生成特定风格的图像作品呢?

来自特拉维夫大学的学者和英伟达合作推出了一款个性化图像生成模型,可以DIY你想要得到的图像。

7b1a12e1cce2fc09a1395d5f89fa7491.png

论文链接:https://arxiv.org/abs/2208.01618

项目地址:https://textual-inversion.github.io/

2a1f818102b82358ed432fcf4a5c88c7.png

视频讲解:https://youtu.be/f3oXa7_SYek

短篇分析:https://www.louisbouchard.ai/imageworthoneword/

用于通用视频识别的语言图像预训练模型

视觉文本模型的学习毫无疑问已经取得了巨大成功,然而如何将这种新的语言图像预训练方法扩展到视频领域仍然是一个悬而未决的问题。

来自微软和中科院的学者提出了一种简单而有效的方法使预训练的语言图像模型直接适应视频识别,而不是从头开始预训练新模型。

fab88ed4c2670e933a1cf4067a9e150f.png

论文链接:https://arxiv.org/abs/2208.02816

项目地址:https://github.com/microsoft/VideoX/tree/master/X-CLIP

0fa510dcd1f5cd276c154508b99d788e.gif

视频讲解:https://youtu.be/seb4lmVPEe8

短篇分析:https://www.louisbouchard.ai/general-video-recognition/

Make-A-Video:一键文本生成视频模型

画家在画布上尽情作画,如此清晰流畅的画面,你能想到视频的每一帧都是AI生成的吗?

MetaAI推出的Make-A-Video,只需简单输入几个文字,便可在几秒内生成不同风格的视频,说成「视频版DALL·E」也不为过。

e92cd26d37d11d55f66a7403993e5a60.png

论文链接:https://arxiv.org/abs/2209.14792

06339ac6c2506a29ffee7c9839e4cb0a.gif

视频讲解:https://youtu.be/MWwESVyHWto

短篇分析:https://www.louisbouchard.ai/make-a-video/

Whisper:大规模弱监督语音识别模型

你有没有想过有一个翻译软件可以快速翻译视频中的语音,甚至是那些你自己都听不懂的语言?

OpenAI开源的Whisper恰好就能做到这一点。

Whisper在超过68万小时的多语种数据上训练,能识别嘈杂背景下的多语种声音并转化为文字,此外还可胜任专业术语的翻译。

32be02109a06e3542eacc5953c0a1fc2.png

论文链接:https://arxiv.org/abs/2212.04356

项目地址:https://github.com/openai/whisper

3b4089a6dc75656e5eea454b7cc818a8.png

视频讲解:https://youtu.be/uFOkMme19Zs

短篇解析:https://www.louisbouchard.ai/whisper/

DreamFusion:用2D图像生成3D模型

文本能生成图像、视频,还有3D模型~

谷歌推出的DreamFusion通过使用预训练的2D文本到图像扩散模型可一键生成3D模型,在数十亿图像文本对上训练的扩散模型推动了文本到3D模型合成的最新突破。

31bf1c8424a799195892ac00c7e2c8c7.png

论文链接:https://arxiv.org/abs/2209.14988

e99d60411526eb868093e8ba286f1cf0.gif

视频讲解:https://youtu.be/epuU0VRIcjE

短篇解析:https://www.louisbouchard.ai/dreamfusion/

Imagic:基于扩散模型的真实图像编辑方法

使用DALL·E等文本图像生成模型,只需输入一行文字便能得到想要的图片,但AI生成的图像有时候并不那么完美。

来自谷歌、以色列理工学院、魏茨曼科学研究所的研究者介绍了一种基于扩散模型的真实图像编辑方法——Imagic,只用文字就能实现真实照片的PS。

例如,我们可以改变一个人的姿势和构图同时保留其原始特征,或者我想让一只站立的狗坐下,让一只鸟展开翅膀。

58b92ccd9447d0ca739ea13dac5ebca2.png

论文链接:https://arxiv.org/abs/2210.09276

项目地址:https://imagic-editing.github.io/

8de92a75ab0b1f5972f68196e37b78e6.png

视频讲解:https://youtu.be/gbpPQ5kVJhM

短篇分析:https://www.louisbouchard.ai/imagic/

eDiffi:更高品质的文本图像合成模型

比DALL·E和Stable Diffusion更强的图像合成模型来了!

这就是英伟达的eDiffi,它可以更准确地生成更高品质的图像,此外加入画笔模具,可以为你的作品增加更多创造性和灵活性。

817898905b17caa8fd9258496d3ffbde.png

论文链接:https://arxiv.org/abs/2211.01324

项目地址:https://deepimagination.cc/eDiff-I/

5aa900980970582b9441835b61ac6e3a.gif

视频讲解:https://youtu.be/grwp-ht_ixo

短篇分析:https://www.louisbouchard.ai/ediffi/

Infinite Nature:从单幅图像中学习自然场景的无限视图生成

你有没有想过,随手拍一张照片然后就像打开一扇门一样飞进图片里呢?

来自谷歌和康奈尔大学的学者将这一想象变为了现实,这就是InfiniteNature-Zero,他可从单幅图像中生成无限制的自然场景视图。

b0e1623d6bebfa27a46e1377d883683f.png

论文链接:https://arxiv.org/abs/2207.11148

项目地址:https://infinite-nature.github.io/

b5191067d7ee866d435eb8aa614e75cb.gif

视频讲解:https://youtu.be/FQzGhukV-l0

短篇分析:https://www.louisbouchard.ai/infinitenature-zero

Galactica:用于科学的大语言模型

Meta开发的Galactica是一种大型语言模型,其大小与 GPT-3 相当,但它擅长的领域是科学知识。

该模型可编写政府白皮书、新闻评论、维基百科页面和代码,它还知道如何引用以及如何编写方程式。这对人工智能和科学来说是一件大事。

6edc3854dda2e7a8aa79122ab7450b5e.png

论文链接:https://arxiv.org/abs/2211.09085

f25867aa0ae0b9ddbc1a282e8b6f2c58.png

视频讲解:https://youtu.be/2GfxkCWWzLU

短篇分析:https://www.louisbouchard.ai/galactica/

RAD-NeRF:基于音频空间分解的实时人像合成模型

自从DeepFake和NeRF的出现,AI换脸似乎已经是司空见惯了,但有个问题,AI换的脸有时会因为对不上嘴型而露馅。

RAD-NeRF的出现可以解决这一问题,它可以对视频中所出现的说话者进行实时的人像合成,此外还支持自定义头像。

ea6291c97aa61dcf08f552518a0e0bc5.png

论文链接:https://arxiv.org/abs/2211.12368

项目地址:https://me.kiui.moe/radnerf/

c7bd90ffe154c2b0c4720cabbaed051d.gif

视频讲解:https://youtu.be/JUqnLN6Q4B0

短篇分析:https://www.louisbouchard.ai/rad-nerf/

ChatGPT:为对话优化的语言模型

2022年度AI的重磅作品怎么能少了ChatGPT,这个已经火遍全网并已经被网友开发出写小黄文、敲代码等各种应用的万能模型,如果你还不了解它,那就快来看看!

10ed9c9ec07d7a983854a171e21c5ad7.png

视频讲解:https://youtu.be/AsFgn8vU-tQ

短篇分析:https://www.louisbouchard.ai/chatgpt/

可直接用于生产使用的视频人脸re-aging

虽然当下计算机视觉模型可以对人脸的年龄进行生成、风格迁移等,但这也只是看起来炫酷,在实际应用中却几乎零作用,现有的技术通常存在着面部特征丢失、分辨率低和在后续视频帧中结果不稳定的问题,往往需要人工二次编辑。

最近迪士尼发布了第一个可实用的、完全自动化的、可用于生产使用的视频图像中re-age人脸的方法FRAN(Face Re-Aging Network),正式宣告电影中靠化妆师改变演员年龄视觉效果的技术落幕。

69bb0caf86522170cb02eace6a5278cf.png

论文链接:https://dl.acm.org/doi/pdf/10.1145/3550454.3555520

项目地址:https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-effects/

857ca38bc20660fabfe65d1d3febd346.gif

视频讲解:https://youtu.be/WC03N0NFfwk

短篇分析:https://www.louisbouchard.ai/disney-re-age/

参考资料:

https://www.louisbouchard.ai/2022-ai-recap/

 

ec827559d23be5e9595c4c51f7384f80.jpeg

 
 
 
 
往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/26345.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

玩元宇宙血亏后 蓝色光标梭哈AI也挺悬

蓝色光标2022年年度报告出炉,巨亏21.75 亿元,其中20.38亿亏损因商誉、无形资产及其他资产减值造成,而在实际亏损业务中,元宇宙占比不小。 蓝色光标在元宇宙领域的布局,主要通过三家子公司实施,分别为蓝色宇…

AGI复仇者联盟!谷歌大脑与DeepMind官宣合体

真急了!谷歌大脑与DeepMind合并,合力对抗ChatGPT。 编译 | 吴菲凝 编辑 | 李水青 智东西4月21日报道,当地时间4月20日,谷歌母公司Alphabet首席执行官桑达尔皮查伊(Sundar Pichai)在官网发文宣布&#xff…

ChatGPT实战100例 - (06) 10倍速可视化组织架构与人员协作流程

文章目录 ChatGPT实战100例 - (06) 10倍速可视化组织架构与人员协作流程一、需求与思路二、 组织架构二、 人员协作四、 总结 ChatGPT实战100例 - (06) 10倍速可视化组织架构与人员协作流程 一、需求与思路 管理研发团队的过程中,组织架构与人员协作流程的可视化是…

微软.NET StockTrader(股票交易示例程序)

Microsoft .NET StockTrader ReadMe 微软 .NET 股票交易示例程序帮助文件(中文版) http://tb.blog.csdn.net/TrackBack.aspx?PostId1792577 http://msdn2.microsoft.com/zh-cn/netframework/bb499684.aspx .NET StockTrader 示例应用程序 用于说明…

用上最新的 GitHub Copilot Chat 了!

本文首发于我的“职场圈”知识星球: 大家好!我是韩老师。 两周前,GitHub Copilot X 横空出世: 重磅!GitHub Copilot X 来了! 带来了五大功能: GitHub Copilot Chat(边写代码边跟 AI …

Copilot Hub 基于私有数据的人格化AI 平台 - 创建自定义ChatGPT知识库AI的简明操作指南...

Copilot Hub 是一个帮助你基于私有数据创建智能知识库 & 人格化 AI 的平台。你可以基于文档、网站、Notion database 或其他数据源在几分钟内创建一个自定义的 ChatGPT。 https://app.copilothub.ai/copilots 需要先登录一下 Copilot Hub 输入邮箱就能登录成功了 我现在使用…

曙光中学2021年高考成绩查询,重温上海40所高中2020年高考成绩(建议收藏)

复旦附中 2020年,复旦大学附属中学共有12位同学被清华大学录取,11位同学被北京大学录取,97位同学被复旦大学录取,44位同学被上海交通大学录取。 上海交大附中 近年,我校大批优秀毕业生被清华、北大、交大、复旦等名校录…

2021上海高考小三门成绩查询,2021上海高考等级考分数怎么划分等级的

上海新高考33模式,与从前相比新增了一个等级考的概念。那么很多考生不知道上海高考等级考分数怎么划分等级的,下面一起带大家来看看。 关于等级考 改革之后的上海高考,统一考试的科目为: 大三门:语文、数学、英语&…

高安二中2021年高考成绩查询,2021年高考来了!高安9287名考生参加

一年一度的高考来了 日前 高品君从市高招办获悉 我市2021年普通高考 共报名考生9287人 比去年增加710人 其中文史类3522人 理工类5004人 三校生类761人 考试将于6月7日至9日举行 全市共设有 高安中学、高安二中 吴有训实验学校、筠阳实验学校4个考点 296个考场 2021年4月单招录…

如何快速、全面、深入地掌握一门编程语言

思考路线 如何快速? 什么样的Demo才能让人觉得你掌握了它? 空 判断:构造一个可以判断所有空的 is_empty 函数 for 循环:i 和 集合迭代两种 时间获取:年/月/日 时分秒 时间戳与时间格式互转 休眠时间函数 字符串处理…

同一台电脑安装多个版本的idea

同一台电脑安装多个版本的idea 需求 ​ 当前,电脑上已经安装了idea2019.3.exe版本,发现此版本太旧了,无法体验新版idea2023.1的很多功能及优化,新出的好多idea插件都不支持idea2019.3版本了,比如,支持Cha…

2023 年 8 大 Web 开发趋势预测

(元)框架 单页应用 (SPA) 及相关框架(例如 React.js、Vue.js、Svelte.js)都已经存在了很多年。然而,随着这些解决方案之上的元框架的兴起,可以看到应用从客户端渲染(CSR)转向服务端…

chatgpt赋能python:Python绘图教程:将画笔移动到绝对位置的方法

Python绘图教程:将画笔移动到绝对位置的方法 Python作为一门高级编程语言,设计初衷是让编程变得简单、易学、易用,且支持多种编程范式,其中产生了让人惊艳的绘图模块——Turtle(海龟)。 在这篇教程中&…

postgresql 报错 FATAL: no pg_hba.conf entry for host 未配置允许远程连接 解决方法

目录 错误现象 问题原因 解决方案 1、进入到data目录下,找到pg_hba.conf文件 2、修改文件 3、进入到postgres用户下,执行命名 4、连接成功 错误现象 问题原因 这是在远程连接时pg_hba.conf文件没有配置正确。 pg_hba.conf文件在Postgre安装文件目…

探寻生机 | 数说故事助力微播易第七届风向大会,研判新风向,洞察新趋势

“过去一年,有的人用ChatGPT谁出具的北京烤鸭图片最准确搞怪,有的人却已经利用虚拟主播单场带货百万;有的人正在被AIGC淘汰,有的人却通过人机协作实现20秒制作100张创意图;有的百万粉丝接不到广告,有的仅靠…

打磨极致音频体验,声网重磅发布新一代音频技术智能引擎“凤鸣AI引擎”

RTE场景不断丰富,高音质互动需求急需满足,声网凤鸣AI引擎应时而生: 1、一次性解决100种突发性噪声,同时兼顾高保真。 2、利用算法对环境中产生的回声混响进行有效抑制。 3、空间音频通过纯软件算法方案,模拟头部球面区…

ChatGPT最大对手谷歌Bard支持中文了!十级过关,看懂梗图,直接上手免费体验...

编辑:编辑部 【新智元导读】Bard又强了!这次不仅支持中文等40种语言,还能上传图片做问答。 前两天,ChatGPT最强竞品Claude升级了二代,谷歌也不甘落后。 今天,最新版本的Bard来了,可以在提示中添…

审美疲劳来袭,AI 产品该何去何从

ChatGPT 的名声最大,但门槛竖得也很高。没有 ChatGPT ,一堆仿版的国内版 ChatGPT 填补着这一片空白,各种 AI 互动工具也在搞圈地运动。Claude 2 发布了,这个号称 GPT-4 最强对手终于用了直面普通消费者的产品出来,内测…

ChatGPT最强对手Claude,免费还支持中文,怎样使用体验如何?

一款免费且支持中文的类 ChatGPT 产品 Claude,已经正式上线了。网友们对此炒得沸沸扬扬,纷纷表示体验非常舒适。在体验过程中,Claude 的表现十分出色。 Claude 的注册很简单,目前只能通过 Slack 使用,而且暂时免费&…

ChatGPT最强对手Claude如何无门槛使用?

Claude,一个冉冉升起的新星,由 chatgpt 团队出来的员工开发的,由于他们对模型的一些发展理念不同,单独融资创建了 Claude,总体来说表现可圈可点,但整体看可能还不如 chatgpt4.0。 ChatGPT 眼中的 Claude C…