快手可灵视频生成大模型全方位测评

快手视频生成大模型“可灵”(Kling),是全球首个真正用户可用的视频生成大模型,自面世以来,凭借其无与伦比的视频生成效果,在全球范围内赢得了用户的热烈追捧与高度评价。截至目前,申请体验其内测版的用户数量已突破70万大关,累计生成的视频作品更是高达700万。

可灵在持续创新的道路上也从未停下脚步,在七月份举办的世界人工智能大会(WAIC)期间,可灵再次迎来重大升级。新功能包括上线web端、基础模型效果升级、图生视频支持首尾帧、增添相机镜头控制功能、单次生成时长增至10s等。

大模型落地的实际效果如何离不开用户的体验与感知,来自中科院计算所数字内容合成与伪造检测实验室的唐帆副研究员及黄子尧、徐子艺等同学对可灵AI视频生成大模型进行了测评。该团队致力于生成式AI的正向应用与反向监管工作,近年来在人工智能和图形学顶级会议和期刊(ACM TOG/CVPR等)上发表了多个图像视频生成成果。团队本次对可灵AI的评测,是为了评估现有视频生成模型能力,探索视频生成技术在学术和现实场景里的新方向和应用潜力。本文转自 数字内容合成与伪造检测 帐号,已获得作者授权转载,本文发表在新功能上线之前,目前可灵最新功能已更新,欢迎爱好者朋友至https://klingai.kuaishou.com 体验)

六个角度:

团队主要从画面质量、内容可控与运动生成三方面进行评测,并与当下最火热的Stable Video Diffusion、Sora和Dream Machine进行比较。画面质量考量视频画面的真实感,包括细节刻画的逼真度与物理世界的一致性两个角度;内容可控从多主体生成、特定内容风格与模型创造力三个角度测试;最后,从运动生成的角度测试了生成结果中动态场景的流畅性和时空关系的合理性。

测评情况:

1、细节刻画:超乎想象

细节决定着一个视频是否会被一眼“打假”,一年前,网上还在大呼“图像生成的场景虽然宏大,但仔细一看完全是东拼西凑”。而可灵对细节的刻画,超出我们的想象。

精美自然界 晶莹剔透的水珠,微微摆动的湿润绿叶,虚化的背景,这个画面真的太美了。不过这里也体现出了后续会说的一个问题——运动不符合提示词。

“一滴雨水滑落叶片的边缘,特写水珠的表面张力和反射的光芒。”

对动物的刻画也十分细致,透明的小翅膀,在花蕊上采蜜的动作,不细看像是真的一样。

“一只蜜蜂在花瓣上采蜜,特写其细腻的翅膀和花粉粘附在腿上的情景。”

精准手和脸 我们知道脸部崩坏,手指抽象是生成模型的老问题了,而可灵的结果看起来不错。看起来画面中的演员真的很痛苦,完全符合我们的提示词。

“一位演员在舞台上表演悲剧角色,特写脸上的悲伤表情和流下的泪水。”

纸张纹理、手部青筋、握笔方式都刻画得十分到位,甚至在纸面上留下了持续新增的笔触。

“一位画家的手在画布上细致地勾勒出人物的轮廓,特写手指的灵活运动。” 

总之,可灵对细节的把控比较到位,不管是自然界的花花草草还是人的面部情绪、手部动作,在视频生成领域有很大的进步。

2、物理世界:表象or内核

人工智能是否能够真正地理解物理世界?我们认为可灵仍然停留在视频的表象。我们发现它对自然界有着细致入微的观察,并且面对镜子、光影可以生成一些令人惊叹的视频,不过在视频中偶尔会发生不合理的事情。

绽放的花朵 两朵花缓慢绽放,花蕊的细节清晰可见,像真是用延时摄影拍摄的一样。“两朵黄色的花在黑色背景下缓慢绽放,展示出细腻的花瓣和花蕊。”

令人惊叹的镜子 这个视频仿佛是在真实场景中发生的,特别是耳部动作的刻画。虽然最后几秒镜子里的动作有问题,但瑕不掩瑜,整体质量十分好。

“一只狗在照镜子,背景是房间内的物品。”

越来越满的咖啡 这是一个特别常见的画面,然而模型完全没有理解我们的意思,蒸汽不减少,咖啡却越来越多。

“一杯满是热咖啡的透明玻璃杯,慢慢地冷却,蒸汽逐渐消失。”

3、想象力:生成不可能

到了可灵主打的想象力环节,我们来看看它能不能生成天马行空的内容。

海底探险 海底、发光宝藏、潜水员和海洋生物该有的元素都有了,镜头不断推进,仿佛我们也深陷海底。

科幻都市 这里的光影令人惊喜,倒影、反光都随着小猫的前进不断变化。整个场景也充满科技风,以后设计画面都可以来这找灵感了。

活灵活现的画面 这里动静之间的处理得特别好,跃出纸面的动物、画板和画家之间的空间关系完全正确。

更具想象力 可灵没有成功生成这个充满想象力的画面,丢失了很多元素。

“一只猫坐在一本打开的书上,书页上的文字围绕着猫身形成漩涡。”

总之,可灵在想象力上中规中矩,能生成让人眼前一亮充满想象力的大场景,但偶尔面对过于超脱的提示词时不知道如何创意地组合各个概念。不过以现在生成的总体质量来看,再改进一下提示词,应该就可以实现想要的内容。

4、多主体:更丰富的内容

谁是狮子 可灵成功生成了两只老虎、两只狮子,但让它生成一只老虎和一只狮子时,却生成了两只老虎。

猫狗合体 小猫小狗作为最常见的动物,可灵却分不清,第一个视频猫变身狗,第二个视频猫狗直接合体。另外可以看到,可灵不会数数但对颜色的把控到位。

“一只白猫,一只黑狗,两只黄色鸭子在一起玩。”“一只白猫,一只黑狗,两只绿色鸭子在一起玩。”

对模型来说,模拟多个角色之间的复杂交互具有挑战性,在多主体上可灵稍显逊色,可能会生成错误的内容。

5、角色和风格:个性化生成

指定角色 可灵在软件上禁止生成现实中存在的名人,因此我们简单地尝试了几个常见角色。

在角色、动作、场景上符合提示词,生成的质量还可以。

“圣诞老人将礼物递过来。”

虽然生成了猴子形象,并且吃东西的动作也很生动,但生成了一行字幕,也完全不符合我们心中孙悟空的样子。在这方面希望国产模型可以认识更多国内文化,让用户可以生成含有优秀传统文化的视频。

“孙悟空吃饭。”

指定风格 我们尝试了不同的风格,模型能够根据提示词生成对应风格,尤其是科幻风较好。

“熊猫弹吉他,赛博朋克风格。”

“熊猫弹吉他,迪士尼动画风格。”

“熊猫弹吉他,写实风格。”

总之,在指定角色和风格上,生成的视频还是令人满意的。不过,生成更加个性化的内容有广泛需求,比如用户自己、家养宠物。如何通过微调或无需训练的方法实现完全的定制化是一个值得深入探讨的话题。

6、运动:复杂的时空关系

相对于图像生成,视频生成最大的难点就在于建模复杂的时空关系,可灵官方声明“可灵采用3D时空联合注意力机制,能够更好地建模复杂时空运动,生成较大幅度运动的视频内容”。

常见运动 首先看看官方提示词的生成对比:

景色不错,但我们的马没有官方的跑得快。

“一个男人骑着马在戈壁沙漠飞奔,背后美丽的夕阳,电影级别画面。”(官方)

“一个男人骑着马在戈壁沙漠飞奔,背后美丽的夕阳,电影级别画面。”(我们)

猎豹跑得没马快。

“一只猎豹在草原上全速奔跑,追逐猎物。”

飞机飞得可以,但是没有体现出“急速俯冲和爬升”,只是常见的飞行。

“一架喷气式飞机在蓝天中做出急速俯冲和爬升的动作。”

复杂场景 完美生成了场景,但是完全不符合动作。

“一只猫在书架上跳跃,书本、装饰品和其他物品之间的空间关系清晰可见。”

交互式动作 模型在拿出来还是放进去反复横跳。

“一个人打开冰箱,拿出里面的可乐。”

看得出来,可灵对于一些常见的动作可以按照提示词生成一致的运动,但存在运动幅度较小的问题,对“飞快、急速”等词的响应有一点问题。而面对复杂场景时,可灵生成的结果也较差,无法生成对应的动作。

模型对比

可灵 vs. SVD

Stable Video Diffusion是Stability公司在2023年底公布并开源的视频生成模型,凭借其出色的性能和应用潜力,吸引了全球技术圈的目光。由于SVD是图生视频模型,我们首先利用SDXL生成图片,再用SVD基于图片生成视频。与SVD相比,时隔半年的可灵生成质量如何?

"The waves crash against the beach, the sunset slowly sets in the distance,Beautiful view,the afterglow."(SVD)

“海浪拍打着沙滩,夕阳在远处缓慢落下,美景,余晖。”(可灵)

"A Chinese man sits at a table and eats noodles with chopsticks."(SVD)

“一个中国男人坐在桌前,用筷子吃面条。”(可灵)

可灵生成的海浪拍打沙滩、吃面条的动作十分真实,而SVD似乎只是简单的镜头移动。在视频连续性、真实性方面,可灵有着飞跃进展。

可灵 vs. Sora

今年2月,OpenAI研发的Sora横空出世,60秒的视频时长,影视级的画面质量一度盖过其它视频生成模型的风头。我们将可灵与Sora进行对比,由于Sora尚未开放测试,我们选取官方公布的测试样例进行对比,因此对比结果可能有失偏颇。

可灵生成的视频中,大象的每一步都会掀起一阵雪花,对阳光、影子都有准确的刻画,虽然后面的小象出现了问题,但还是凸显出可灵对光影的理解。而Sora对猛犸象的生成更加准确,但大象背后雪花造成的烟雾略显夸张。

"Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow-covered trees and dramatic snow-capped mountains in the distance, mid-afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field." (Sora)

“几只巨大的毛茸茸的猛犸象在白雪皑皑的草地上踩踏,它们长长的毛茸茸的皮毛在风中轻轻吹拂,远处白雪皑皑的树木和壮观的雪山,午后的阳光与缕缕的云彩和远处的太阳高高地营造出温暖的光芒。低相机视角令人惊叹,以精美的摄影捕捉大型毛茸茸的哺乳动物,深度。”(可灵)

在Sora展示的一个失败例子中,可灵也失败了。同样是让篮球爆炸,Sora虽然在结尾又冒出了一个篮球,但确实让篮球爆炸了,而可灵的篮球像橡皮泥捏的。

"Basketball through hoop then explodes."(Sora)

“篮球穿过篮筐然后爆炸。”(可灵)

相比于Sora,可灵没有完全败下阵来,二者都有可圈可点的地方,等Sora放出Demo才能进行更全面的对比。

可灵 vs. Dream Machine

6月13日,Luma AI发布视频生成模型Dream Machine,用户可以通过文字或图片生成高质量的高清视频。不需要申请,登录就可以免费使用,但目前限制每天生成十个视频。下面是它与可灵生成的视频对比(使用Dream Machine文生视频功能):

"It was raining heavily outside the window, and the rain was sliding down the window, leaving water lines."(Dream Machine)

“窗外下着大雨,雨水在窗户上滑落,留下水流纹路。”(可灵)

"A cute cat is looking at a mirror through the water surface with fish swimming in it."(Dream Machine)

“一只可爱的猫通过水面照镜子,水里有游动的鱼。”(可灵) 

在上面两个例子中,可灵在画面展现、物理规律上还是完全胜于Dream Machine的。在用户使用上,可灵的生成速度比Dream Machine慢,可灵通常是3分钟生成一个5秒的视频,而Dream Machine官方称2分钟即可生成120帧5秒的视频。

合成 vs. 检测

视频生成技术不断进步,生成的视频质量越来越接近真实内容。这也引发了对视频内容真实性的关注,特别是在新闻、法律和安全等敏感领域。我们用中科睿鉴研发的视频伪造检测小程序对可灵生成的40个视频进行检测,在检测模型未针对可灵模型进行调优时,检出率为85%。

被识别为真的视频画面

我们利用可灵生成的这些视频,具有逼真的画面,较高的一致性和连续性,很少存在抖动情况。被检测出来的视频通过肉眼看也很难判别真伪,大多数视频很少存在失真、变形。可灵AI视频生成大模型的表现展示了AI在视频生成领域的巨大潜力,同时也突显了确保数字内容真实性的挑战。这一领域的未来发展将是技术创新和伦理责任并行的结果。

总结

总的来说,可灵的生成质量还是很不错的,支持中文输入极大提高了用户体验感。视频时长、分辨率、流畅度大幅提升,在细节、人体上有着很大进步,在动作幅度、想象力上还略显不足。本文采用的提示词都不是经过精心挑选的,有时甚至能达到随手出片的效果。

今年,Sora、可灵和Dream Machine等高质量视频生成模型不断涌现,各大科技机构纷纷投入视频生成赛道。目前,视频生成落地面临多重难点,快速高质量的生成技术、昂贵的算力成本都是亟需解决的问题。在这一背景下,快手推出面向公众开放测试的产品级应用,一键生成视频,直接剪辑发布,形成了一套完整流程,极大推动了视频生成的实际落地。在未来,如何形成一个完善的AIGC生态体系,以及完整的产业链与现有产品进行联动,都是长期关注的焦点。另外,随着Sora类的生成技术不断成熟,整个视频生成研究领域会进入到下一个阶段:不仅会关注视频内容的真实性,还会更加注重视频中的物理规律和运动幅度等“幻觉”问题。这意味着,未来的视频生成技术不仅要在视觉上令人信服,还要在物理动作和逻辑上保持一致,以产生更加自然和流畅的视觉效果。此外,随着技术的发展,我们还可能看到更多的交互式视频内容生成,其中用户可以指定某些参数或直接与视频内容互动,从而创造出独一无二的个性化视频体验。这将极大地扩展视频生成技术的应用范围,比如娱乐、教育、专业培训和模拟等多个领域。

总之,视频生成技术的未来发展将不仅仅局限于提高图像质量,更将涉及到如何创造出符合物理规律、具有高度互动性和个性化的视频内容。这将是一个充满挑战但也极具潜力的新阶段。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/384354.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

路由表与IP数据报转发:基础小白指南

目录 1. 路由表的基本概念 2. 路由表中的默认路由 3. IP数据报的转发流程 4. 路由聚合 5. 最长前缀匹配 总结 在网络世界中,IP数据报的转发是如何进行的? 这篇文章将带你深入了解路由表的基本概念和IP数据报的转发流程。我们会用简洁明了的语言和实…

MYSQL 第四次作业

任务要求: 具体操作: 新建数据库: mysql> CREATE DATABASE mydb15_indexstu; Query OK, 1 row affected (0.01 sec) mysql> USE mydb15_indexstu; Database changed 新建表: mysql> CREATE TABLE student( ->…

计算机网络知识-面试点1

1. 三握四挥 定义: 在计算机网络中,特别是TCP/IP协议中,“三握”指的是三次握手(Three-way Handshake),而“四挥”则指的是四次挥手(Four-way Handshake)。这两个过程分别用于TCP连接…

用python程序发送文件(python实例二十六)

目录 1.认识Python 2.环境与工具 2.1 python环境 2.2 Visual Studio Code编译 3.文件上传 3.1 代码构思 3.2 服务端代码 3.3 客户端代码 3.4 运行结果 4.总结 1.认识Python Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python 的设计具…

k8s中部署nacos

1 部署nfs # 在k8s的主节点上执行 mkdir -p /appdata/download cd /appdata/download git clone https://github.com/nacos-group/nacos-k8s.git 将nacos部署到middleware的命名空间中 kubectl create namespace middleware cd /appdata/download/nacos-k8s # 创建角色 kub…

KamaCoder 98. 所有可到达路径 + LC 797. All Paths From Source to Target

题目要求 给定一个有 n 个节点的有向无环图,节点编号从 1 到 n。请编写一个函数,找出并返回所有从节点 1 到节点 n 的路径。每条路径应以节点编号的列表形式表示。 输入描述 第一行包含两个整数 N,M,表示图中拥有 N 个节点&…

ctfshow-web入门-php特性(web137-web141)

目录 1、web137 2、web138 3、web139 4、web140 5、web141 1、web137 直接调用 ctfshow 这个类下的 getFlag 函数,payload: ctfshowctfshow::getFlag 查看源码: 拿到 flag:ctfshow{dd387d95-6fbe-4703-8ec5-9c8f9baf2bb5} 在…

每天一个设计模式之职责链模式(第一天)

特别感谢刘伟老师,看他的书我学到了很多东西,从今天开始我要开始更新啦! 在csdn个人博客来总结知识,把他们变成自己的能力。 对三,要不起,张三李四王五几个人在玩斗地主,过过过,一…

杰发科技Bootloader(1)—— Keil配置地址

IAP方式 BootLoader方式 UDSBoot方式 AC7801的地址分配 用户空间的的地址从8000000开始分配,大小是64页,即128K。 RAM地址从20000000开始 基于UDSboot调试-Boot 烧录Boot之后,ATClinkTool无法连接 用keil查看内存,地址到8005388…

vscode 调试web后端

1、调试环境配置 一、安装python环境管理器 其中要先在vscode选择对应的python环境,最方便的是按照环境管理器后从中选择。其中在【externsions】里面安装python即可。 如下: 二、编写launch.json文件 其中如下: {// Use IntelliSense …

oracle中存储过程的写法

存储过程常规语法: 实际业务例子: CREATE OR REPLACE TRIGGER "TRI_B00_02_ONLY_GUID" BEFORE/AFTER INSERT OR UPDATE OR DELETE ON B00_02 FOR EACH ROW declare t_guid varchar2(300) : ; --GUID t_cnt int : 0; BEGIN t_guid : :NEW…

快速入门C#设计模式【2】结构型模式

结构型模式 适配器模式 (Adapter)桥接模式 (Bridge)组合模式 (Composite)装饰模式 (Decorator)外观模式 (Facade)享元模式 (Flyweight)代理模式 (Proxy) 适配器模式(Adapter Pattern) 适配器模式(Adapter Pattern)是一种结构型设计…

Pytorch深度学习实践(5)逻辑回归

逻辑回归 逻辑回归主要是解决分类问题 回归任务:结果是一个连续的实数分类任务:结果是一个离散的值 分类任务不能直接使用回归去预测,比如在手写识别中(识别手写 0 − − 9 0 -- 9 0−−9),因为各个类别…

CentOS7下操作iptables防火墙和firewalld防火墙

CentOS7下操作iptables防火墙和firewalld防火墙 💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、…

【OpenCV C++20 学习笔记】调节图片对比度和亮度(像素变换)

调节图片对比度和亮度(像素变换) 原理像素变换亮度和对比度调整 代码实现更简便的方法结果展示 γ \gamma γ校正及其实操案例线性变换的缺点 γ \gamma γ校正低曝光图片矫正案例代码实现 原理 关于OpenCV的配置和基础用法,请参阅本专栏的其…

HAL STM32 SPI/ABZ/PWM方式读取MT6816磁编码器数据

HAL STM32 SPI/ABZ/PWM方式读取MT6816磁编码器数据 📚MT6816相关资料(来自商家的相关资料): 资料:https://pan.baidu.com/s/1CAbdLBRi2dmL4D7cFve1XA?pwd8888 提取码:8888📍驱动代码编写&…

FastAPI(七十九)实战开发《在线课程学习系统》接口开发-- 加入课程和退出课程

源码见:"fastapi_study_road-learning_system_online_courses: fastapi框架实战之--在线课程学习系统" 加入课程 我们先看下加入课程 1.是否登录 2.课程是否存在 3.是否已经存在 4.添加 首先实现逻辑 def get_student_course(db: Session, course: int…

如何开启或者关闭 Windows 安全登录?

什么是安全登录 什么是 Windows 安全登录呢?安全登录是 Windows 附加的一个组件,它可以在用户需要登录的之前先将登录界面隐藏,只有当用户按下 CtrlAltDelete 之后才出现登录屏幕,这样可以防止那些模拟登录界面的程序获取密码信息…

【9.PIE-Engine案例——加载Terra星全球500m植被指数16天合成产品(MOD13A1 V61)数据集】

加载Terra星全球500m植被指数16天合成产品(MOD13A1 V61)数据集 原始路径 欢迎大家登录航天宏图官网查看本案例原始来源 最终结果 具体代码 /*** File : MOD13A1* Time : 2020/7/21* Author : piesat* Version : 1.0* Contact : 400-890-0662* License : …

Interesting bug caused by getattr

题意:由 getattr 引起的有趣的 bug 问题背景: I try to train 8 CNN models with the same structures simultaneously. After training a model on a batch, I need to synchronize the weights of the feature extraction layers in other 7 models. …