这段视频火爆外网,谷歌把AI视频造假搞得太真太简单了

来源:量子位

家人们,AI做视频这事今天又被推向了舆论的风口浪尖。

起因是有人在网上发布了这么一只小企鹅的视频:

而这个近50秒视频的诞生,靠的仅仅是6句话

dc0f3d4504414024a7dbe08852aa04aa.jpeg

陆陆续续的,网友们还在发布着这个AI的其它杰作:

97c1a7b2a46fcc9cd739ee3e5a967988.gif

这次给它投喂的提示词也是极短,仅4行

cd04295d88acdd4efd148d4961ed2d3f.png

如此“所写即所得”、丝滑连贯的视频生成方式,也是令不少网友发出感慨:

未来已至。

a7afa836363ffd9a2273c3ba646ba6fd.jpeg

甚至还有人开始“拉仇恨”,说AI正在用各种方式摧毁行业……

57ad758799bd6688f0a924ce4c1d5c85.jpeg

然后就有很多人发问了:“这又是哪家新搞的AI哇?”

ee4c298e2c1c21f670882a124e651b65.jpeg

不过眼尖的网友发现它其实是一位“老朋友”了——

谷歌去年10月份便发布的一个文本转视频(Text-to-Video)模型:Phenaki

只需一段提示词,分分钟可以生成长达两分钟的视频。

52d34e74299c7c1df5df8d56edf43c9e.gif

而相比Phenaki刚发布的时候,谷歌又来了一波上新操作

那么我们现在就来一同看看这些新视频吧~

打字就能生成的视频

与以往AI生成的视频不同,Phenaki最大的特点便是有故事有长度

例如,我们再给这么一段场景描述:

在一座未来感十足的城市里,交通纷繁复杂,这时,一艘外星飞船抵达了城市。

随着镜头的拉近,画面进入到了飞船内部;而后镜头沿着船内长廊继续向前推进,直到看到一名宇航员在蓝色的房间里敲键盘打字。

镜头逐渐移向宇航员的左侧,身后出现蓝色海洋,鱼儿们在水里徜徉;画面快速放大聚焦到一条鱼的身上。

随后镜头快速从海里浮出,直到看到摩天大楼高耸林立的未来城市;镜头再快速拉近到一撞大楼的办公室。

这时,一只狮子突然跳到办公桌上并开始奔跑;镜头先聚焦到狮子的脸上,等再次拉远时,这只狮子已经幻化成西装革履的“兽人”。

最后,镜头从办公室拉出,落日余晖下鸟瞰这座城市。

想必不少友友们在读这段文字过程中,脑中已经浮现相应的画面了。

接下来,我们一起看看Phenaki生成的效果如何:

是不是和你脑补出来的画面一致呢?

总体来说,这个AI即便面对这种脑洞大开的场景提示词,也是做到了无缝衔接的转场。

也难怪网友们看完这段视频后惊呼“(科技)发展得真快啊”。

6bc19603850185ce075af11fe41f52c1.jpeg

而对于篇幅稍短的提示词,Phenaki就更不在话下了。

例如,给Phenaki投喂这样一段文字:

一只逼真的泰迪熊正在潜水;随后它慢慢浮出水面;走上沙滩;这时镜头拉远,泰迪熊行走在海滩边篝火旁。

c68ef0a42eccf05ec161ee4efbbe6da2.gif

没看够?那再来一段,这次换个主角:

在火星上,宇航员走过一个水坑,水里倒映着他的侧影;他在水旁起舞;然后宇航员开始遛狗;最后他和小狗一起看火星上看烟花。

1a9272d948beb39db215526ba32f61e6.gif

而在谷歌更早发布Phenaki之际,还展示了向Phenaki输入一个初始帧以及一个提示词,便可以生成一段视频的能力。

例如给定这样一张静态图:

ec2fc5f196d01c0c0850325d9f4e9aaa.png

然后再给它Phenaki简单“投喂”一句:白猫用猫爪触摸摄像机。效果就出来了:

4f0f7a1ac4fa2995997c393c215d9f7b.gif

还是基于这张图,把提示词改成“一只白猫打哈欠”,效果就成这样了:

4a32f3354a024c2d7d4e21f574c1d13d.gif

当然,任意切换视频整体风格也是可以hold得住的:

457cc1aba88792d4a81bfe7ffecc397e.png

网友:视频行业要被AI冲击了吗?

但除了Phenaki之外,谷歌当时还一道发布过Imagen Video,能够生成1280*768分辨率、每秒24帧的高清视频片段。

01e3c0c27bb2992739d3d2c9d12ade36.gif

它基于图像生成SOTA模型Imagen,展示出了三种特别的能力:

  • 能理解并生成不同艺术风格的作品,水彩、像素甚至梵高风格

  • 能理解物体的3D结构

  • 继承了Imagen准确描绘文字的能力

更早的,Meta也发布了Make-A-Video,不仅能够通过文字转换视频,还能根据图像生成视频,比如:

  • 将静态图像转成视频

  • 插帧:根据前后两张图片生成一段视频

  • 根据原视频生成新视频
    ……

ab209dc7297878ae17491cc06888949d.gif

对于这如“雨后春笋”突然冒出的生成视频模型,不免会让有些人担心:

1d54fda329597c5a8b6eb9bbad187931.jpeg

当然也有人认为现在时机还未到:

0-1总会很快,1-100还是会很漫长。

457d2cbe1f0304e18872082e84d34c7b.jpeg

不过已经有网友在期待靠AI拿奥斯卡奖了:

AI要多久才能成为新的视频编辑器,或者拿下奥斯卡?

e526b5a92c04fb2c0720eb6cc936b572.jpeg

原理介绍

再说回Phenaki,有不少网友都比较好奇它是如何通过文字生成这么丝滑的视频的?

简单来说,Phenaki相较于以往的生成视频模型,它更注重时间长度任意性连贯性

Phenaki之所以能够生成任意时间长度的视频,很大程度上要归功于新的编码器-解码器架构:C-ViViT

它是ViViT的一个因果变体,能够将视频压缩为离散嵌入。

要知道,以往获取视频压缩,要么就是编码器不能及时压缩视频,导致最终生成的视频过短,例如VQ-GAN,要么就是编码器只支持固定视频长度,最终生成视频的长度不能任意调节,例如VideoVQVAE。

但C-ViViT就不一样了,它可谓是兼顾了上面两种架构的优点,能够在时间和空间维度上压缩视频,并且在时间上保持自回归的同时,还可以自回归生成任意长度的视频。

0f7881d24508f5266930b86740f15ecf.jpeg

C-ViViT可以使模型生成任意长度的视频,那最终视频的逻辑性又是怎么保证的呢?

这就得靠Phenaki另外一个比较重要的部分:双向Transformer。

在这其中,为节省时间,采样步骤是固定的,并且在处理文本提示的过程中,能同时预测不同的视频token。

这样一来,结合前面提到的,C-ViViT能够在时间和空间维度上压缩视频,压缩出来的token是具有时间逻辑性的。

也就是说,在这些token上经过掩码训练的Transformer也具备时间逻辑性,最终生成的视频在连贯性自然也就有了保证。

1cb71bf0f9926a0e3fccc00c4575972d.jpeg

如果还想了解更多关于Phenaki的东西,可以戳这里查看。

Phenaki:
https://phenaki.github.io

参考链接:
[1] https://phenaki.video/
[2] https://phenaki.research.google/
[3] https://twitter.com/AiBreakfast/status/1614647018554822658
[4] https://twitter.com/EvanKirstel/status/1614676882758275072

推荐阅读

  • 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》

  • 润了!大龄码农从北京到荷兰的躺平生活(文末有福利哟!)

  • 如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研

  • 奖金675万!3位科学家,斩获“中国诺贝尔奖”!

  • 又一名视觉大牛从大厂离开!阿里达摩院 XR 实验室负责人谭平离职

  • 最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 2021李宏毅老师最新40节机器学习课程!附课件+视频资料

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

318560e8a64c5bfbb720914292e84c25.jpeg

👆 长按识别,邀请您进群!

bf2b1d46a2ad18a204287b2d37d51578.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/63821.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2020AI顶会的腾讯论文解读 | 多模态学习、视频内容理解、对抗攻击与对抗防御等「AI核心算法」

关注:决策智能与机器学习,深耕AI脱水干货 报道 | 腾讯AI实验室 计算机视觉领域三大顶会之一的 ECCV(欧洲计算机视觉会议)今年于 8 月 23-28 日举办。受新冠肺炎疫情影响,今年的 ECCV 与 CVPR 一样是完全的线上会议。近…

豪气!华为放话:3年培养100万AI人才!网友神回应了

大家经常把BAT挂在嘴边,但是可能有些人还不知道,华为的体量早已超越了这三巨头,只是迟迟不肯上市。华为的创始人任正非曾说表:上不上市不重要,最重要的是要让中国华为的技术能够称霸全球! 华为对技术的重视…

豪投10亿!华为放话:3年培养100万AI人才!网友神回应了

近期,AI测试权威软件AI Benchmark的测试数据显示,中国华为研发的7nm旗舰手机芯片麒麟810的AI分数,远远超过美国高通骁龙855了! 麒麟810芯片AI分数是3300多,名列第一。而骁龙855手机则是2700多。 大家振奋的同时&#…

ETH今日全网算力上涨3.14%

消息面:BTC全网算力123.098EH/s,挖矿难度16.85T,目前区块高度642856,理论收益0.00000809/T/天。 ETH全网算力201.064TH/s,挖矿难度2535.06T,目前区块高度10622682,理论收益0.00911583/100MH/天。 BSV全网算力2.305EH/s,挖矿难度0.32T,目前区块高度647319,理论收益0.0…

一分钟配置Openai api接口代理

目录 目录 目录一、首先需要一个国外的云服务器二、搭建步骤1.连接服务器2.安装宝塔2.服务器安装以及配置 答疑合作 一、首先需要一个国外的云服务器 这里推荐这个。链接:衡天云 二、搭建步骤 1.连接服务器 可使用xshell或者自带的vnc直接连接,账号密…

ChatGPT预示着人类文明的终结?丨小智ai

ChatGPT丨小智ai丨chatgpt丨人工智能丨OpenAI丨聊天机器人丨AI语音助手丨GPT-3.5丨OpenAI ChatGPT|GPT-4|GPT-3|人机对话|ChatGPT应用|小智ai|小智ai|小智ai|小智ai|小智AI|chatgpt小智AI 人工智能(AI)的快速发展和广泛应用给我们的社会带来了前所未有的…

跟ChatGPT聊天、需求润色优化,禅道OpenAI 插件发布

禅道插件上新了,OpenAI 禅道集成,可提供神奇海螺聊天、需求润色功能。 神奇海螺 “章鱼哥,你为什么不问问神奇海螺呢?”——海绵宝宝 那么,就让我们问一问神奇 海螺吧!禅道上线神奇海螺功能,…

工作多年,对程序员“未来”的一些看法

大家好,我是 Jack。 之前有读者朋友留言,让我讲讲程序员是不是在吃“青春饭”。 举个两个极端的例子,一个行业如果完全以年龄为衡量: 以年轻为最高优先级:新入行的新鲜血液熟悉熟悉规则就能立刻代替上了年纪的中年人&…

电脑上怎么录屏并保存?进来学习一下小技巧

随着现在互联网飞速发展,我们在日常办公中经常需要电脑录屏的操作。电脑录屏就是需要把屏幕录下来保存在电脑上,然后进行分享查阅或者保存下来。然而最近有小伙伴在咨询使用系统自带的录制功能但是不知道文件会保存到哪里。那么电脑上怎么录屏并保存呢&a…

蓝牙信标xbeacon产品介绍---深圳市蓝科迅通科技有限公司

xBeacon-P2 为 iBeacon 产品,采用 Nordic 最新的 nRF52 芯片,按照用户设置的参数定时发射低功耗蓝牙信号,用于微信摇一摇周边、室内导航或信息推送;应用于应用于火车站、医院、大型商场超市的人员导航寻路。 如对产品以及蓝牙定位…

喜报 | Bonree ONE 2.0荣获信通院“2022IT新治理年度明星产品”

近日,由信通院“GOLFIT新治理领导力论坛”评选的2022IT新治理年度明星产品重磅出炉,博睿数据一体化智能可观测平台Bonree ONE 2.0凭借卓越的产品力以及优秀的用户体验,从一众产品中脱颖而出,获得“2022IT新治理年度明星产品”。 …

P2P视频聊天技术分析

整个P2P视频过程需要知道双方的媒体类型、流和候选者,所以这里就会用到一下技术: ​ 信令服务器socket.io ​ 状态机 ​ ICE服务器 ​ WebRTC框架 ​ 媒体协商 信令服务器Socket.io 信令服务器说白了作用就是发消息的中转站,A把msg发到…

长视频与短视频,其底层逻辑有何不同

作者:卫夕 全文共 6713 字 11 图,阅读需要 15 分钟 ———— / BEGIN / ———— 短视频的能量是长视频的9倍? 很多人看到这个结论立马就开始激动了:9倍是如何算出来的?为什么不是8倍或者90倍? 淡定&#x…

短视频平台类的社交媒体市场现状与发展前景到底如何?

移动互联时代,媒介对社会生活的嵌入打破了原有的社会互动结构和交往生态,带来了媒介化社交的行为样态在媒介化社交的行为谱系中,以抖音短视频为代表的社交媒介平台备受青年群体的青睐。抖音上社交不只是普通社交方式,对于我们社交…

icon图标的使用

icon图标的使用 1.使用现有网站的图标 以CSDN举例&#xff0c;输入https://www.csdn.net/favicon.ico&#xff0c;然后将.icon的图标下载到桌面&#xff0c;放到项目的根目录下&#xff0c;在HTML文件中的head部分引入 <link rel"shortcut icon" href"2.i…

Material icons全部图标截图(共1117个)

由于Material官网打不开 截图备用 使用的时候 名称的大小写的连接处和英文数字交界处 用下划线连接[_] 另 留个目前能打开的可查看Material icons全部图标的网址&#xff1a; https://material-ui.com/zh/components/material-icons

layer icon对应图标

信息框(msg、alert、open、confirm) icon:0 icon:1 icon:2 icon:3 icon:4 icon:5 icon:6 icon:16 加载层(load) icon:0 icon:1 icon:2

使用 icon 字体图标出现小方块问题

今天在弄一个vue 项目的时候&#xff0c;碰到了引入icon 出现错误&#xff0c;现在总结一下问题&#xff1a; 主要碰到两个错误 1&#xff1a;路径错误&#xff0c;报错找不到modules&#xff0c; 2&#xff1a;路径错误&#xff0c;但是没有报错&#xff0c;只是显示小方块&am…

形状篇:小人图像等图标

各种PPT需要用到的小人和其他形状&#xff0c;自取 链接:https://pan.baidu.com/s/1JdkJKzpr6Q4-Mw_84n-l7A 提取码:6a1e