从Sora到有言:3D视频生成技术的突破与应用

近年来,AIGC领域飞速发展,这个词也越来越高频地出现在了大家的生活中。AIGC 能完成的任务也越来越多,大模型的能力飞速增长 —— 从Deepseek生成文字,到StableDiffusion生成图像,再到Sora可以生成视频。

而现在,AIGC 还可以生成 3D 视频。

相比于在屏幕前观看视频,3D 视频则更令人“身临其境”。2D 视频的本质是生成一帧帧充满像素点的图片,3D 视频则是由3D 场景、角色、光照等组成的。其生成方式也更接近现实世界中我们观察事物的逻辑,由此可以避免 AI 对真实世界客观规律的错误理解。

Sora 生成视频中篮球穿过了金属框

以现在的技术,生成看起来炫酷的视频不难;但要保证生成视频在物理规律上的正确性,却是一件很困难的事情。就连目前大家公认一枝独秀的 Sora,也无法解决这个问题。比如,上图为 Sora 生成视频的截图,图中篮球穿过了金属框。

在未来,生成的 3D 视频不仅能在我们常见的屏幕上播放(转为 2D 内容),而且还能再在 Vision Pro 等虚拟现实类媒介上播放,帮助大家提前布局未来的传播渠道。

AIGC 生成 3D 视频的这类应用具有什么优势吗?相比于传统 PGC (专业生产内容)制作 3D 视频的流程来说,其制作门槛低、耗时短、成本低。在 AIGC 之前,3D 视频都是通过传统 PGC 制作流程来生产的。传统 PGC 制作流程包含有许多步骤,而这其中的过程不仅需要专业人员的参与,而且耗时耗力。

而现在,用户可以选择使用 AIGC 来生成 3D 视频,一键式完成上述这些流程,把原本大几个月的工作压缩在一两天内完成,不仅大大节省了所需要的时间,而且也省下了大笔的经费。

此外,相比于 Sora 这类直接生成无法后期编辑视频的应用来说,生成 3D 视频的过程可控、生成后的视频元素(角色、场景、分镜等)可以编辑,因此更为适合商业应用。

更何况,Sora 这样的应用,还没有产品化和面向公众开放。但是, AIGC 生成 3D 视频这类应用,已经有很成熟的产品可以供用户来使用了。

比如有言,一站式 AIGC 视频生成平台。

有言这类 AIGC 视频生成平台,可以用于生成人物演讲形式的视频。面向的应用场景十分广泛,涵盖知识分享、教育培训、产品发布、社会政务、党建教育等领域。在如今这样的短视频时代,视频的影响力比图片文字更大,但是视频制作门槛相对较高。这样的 AIGC 视频生成平台,能让用户低门槛、低成本、快速地生成高质量视频。

在有言,用户只需要准备好脚本和素材,在网页上动动鼠标,即可轻松生成高质量3D视频内容。现在来拆解制作一个 3D 视频的流程。

有言视频制作第一步:制作脚本、上传素材

脚本是整个视频的灵魂。但是,脚本撰写的门槛很高,不仅需要很强的背景知识,还需要对于整个视频后期呈现的效果有较强的理解。像大型活动、知识分享这样的脚本撰写,专业人士也需要1-2个工作日才能完成。

有言一站式 AIGC 平台总不仅提供了高质量脚本生成模型,而且还能对于给出的脚本进行纠错、润色、风格化等改进。这对于没有视频脚本创作经验的人来说,十分提效。

有言还支持上传各种格式的素材,它们都可以在生成的演播室中进行展示。

有言视频制作第二步:角色和场景选择

3D 角色和场景是 3D 视频中视觉元素的主要组成部分。而在传统 PGC(专业生产内容)流程中,3D 角色和场景的建模也是最为繁琐和昂贵的。这两个部分分别耗时都会在 1-2 个月,耗资也是好几十万元,这两项的成本劝退了大部分考虑 3D 视频的用户。

在传统 PGC 中,建模一个人物角色的模型是很繁琐的,需要经过这样一些步骤:静态建模(需要模型师搭建出来角色形象、服装、妆容、发型等)、身体动作绑定(需要绑定师把模型和标准的人体部位绑定)、动作表情(需要动画师来绘制或者通过复杂的动作捕捉流程来完成)、声音建模(需要人工进行录音编辑等)。

而在传统 PGC 中,场景制作则更是费时费力。需要经过原画、场景建模、材质建模、灯光建模等诸多步骤。

而在有言中,不论是人物角色、场景,还是人物语音,都已经有了大量的资源库可供用户选择,直接帮助用户完成了最为复杂的 3D 人物角色和场景建模的部分。这些场景和人物使用起来也很容易,进入到有言一站式 AIGC 视频生成平台之后,搜索相应的标签,就能找到一系列的人物和场景。

鼠标轻轻一点,打开相应的模版,就可以进行下一步的视频生成和编辑。

在未来,有言一站式 AIGC 视频生成平台之后还会支持通过上传照片生成 3D 虚拟人等功能、智能绑定技术、AIGC文本生成动画等。有了这些功能,用户可以更加个性化地定制属于自己的人物模型和动作 —— 当然,成本比传统方式要低得多。

在人物动作上,有言提供了很多细节功能,这些细节使得最后生成的视频更有质感,看起来也更为自然。比如,用户可以精确地进行动作控制,从而可以在演讲过程中增加和编辑相应的动作,使得整个演讲过程更为自然。

而这样的细节动作控制起来也很容易,只需要在脚本中插入相应的标记即可轻松实现。

有言视频制作第三步:视频生成

在上传了脚本和素材、选择好了场景和人物之后,离成型的视频已经很近了。

接下来,稍微检查一下每个视频片段中的脚本和素材。点击每个视频片段,可以看到相应的脚步,里面不仅包含了演讲稿内容,而且还包括了人物的动作、表情以及演讲的读音和语气等。

选择相应的音色之后,即可播放试听。

在传统 PGC 中,对演讲稿进行录音不仅十分耗时,而且也非常昂贵。人工配音员每分钟录音都需要上百元,而且还需要租用专业的录音棚来进行。而在有言上,则可以使用各种音色模版进行高质量的语音生成。现在 AI 生成语音的技术已经十分成熟,生成出来的语音和专业的配音员的语音质量也越来越近。而有言最大的优势是,语音的诸多细节都是可以编辑的,从停顿的时间、重读的单词,到词语的读音,都可以高度定制化。

把脚本、素材、场景、人物、语音等都搞定之后,点击“一键生成”,就可以看到制作的初版视频了。

“一键生成”背后对应的是传统 CG 渲染过程。这个过程需要考虑画面中的灯光、材质等诸多因素。在传统视频制作中,CG 渲染是一个很消耗计算资源的过程,同时也很昂贵。举例来说,渲染 1 分钟的 4K 视频,如果使用相应的渲染云服务,也需要上千元。

而有言开发了视频实时输出引擎(UE)、批量灯光采样等一系列的渲染技术,不仅大大降低了渲染的时间和现金成本,还能够达到高质量的渲染效果 —— 不仅可以达到传统逐帧 4K 渲染的效果,而且能保证声画同步不跳帧。

有言视频制作第四步:视频包装

其实有言的“一键生成”已经在细节上帮用户下了很多功夫,包括如何切换镜头显得更加自然、人物应该在演讲的什么位置添加上什么动作等。

不过自动生成的视频也会不尽人意,不过没关系,3D 视频生成的优势就在于,所有的元素都可以后期进行编辑。

以视频分镜为例。视频分镜不仅能够突出重点,也使得整个视频更专业、更连贯。在有言中,用户可以更加细致地优化相应的镜头录制,使得整个视频更加连贯自然。

除了分镜优化之外,背景音乐、音效、字幕、文字效果等,都可以手动进行更加细致的编辑。

这些细节的加入,能够大大提高视频的观感和专业性。比如背景音乐能够提高视频的质感和声音上的层次,音效则能在相应位置更加突出重点。

在对视频加入这些小细节之后,就可以导出制作完成的视频。

总结而言,在现阶段,AIGC 生成视频大多还处于画大饼的概念阶段,Sora 视频生成的效果非常惊艳,但是最终它是否能被开放出来进行商用,还不一定。而在有言一站式 AIGC 视频生成平台上,大家已经可以体验到完整的 AIGC 视频生成产品。在这一点上,有言做的确实很不错。

在 AIGC 生成视频这方面,有言算得上是一款非常领先的产品,制作门槛低,很好上手;最大的优势在于能够大大节省制作 3D 视频的时间和金钱,

有言在人物演讲类视频生成上做得非常到位,适用包括知识分享、教育培训、产品发布、社会政务、党建教育在内的各种场景。整体的使用体验是很流畅,而且其中有很多打动科技人的小细节,比如能够就某一个手势进行自定义、某个词语的读音和停顿都可以进行相应的标注。真的强烈建议日常有视频制作需求、对视频制作感兴趣同行的都去试用、体验一下有言,毕竟在将来的 AIGC 时代,学习使用 AI 赋能的工具将是每个人的必修课。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17698.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

xiao单栏/网格布局typecho主题模板源码

源码介绍 xiao单栏/网格布局typecho主题模板源码 一款基于 bootstrap5.3.3 开发的 typecho 单栏主题 效果预览 源码获取 xiao单栏/网格布局typecho主题模板源码

如何运用边缘计算控制器提升智能工厂的竞争力?

制造业正经历一场深刻的变革。其中,边缘计算作为一项关键技术,在提升生产效率、降低成本以及实现智能制造方面发挥着至关重要的作用。本文将探讨边缘计算在智能工厂中的应用场景及其带来的价值。 边缘计算简介 边缘计算是一种分布式计算范式&#xff0…

今日学习总结

复习了dfs的相关内容&#xff0c;完成了一道dfs相关的题目。 P2371挑战算周长 #include <stdio.h> // 定义一个二维字符数组 map 用于存储地图信息&#xff0c;大小为 25x25 char map[25][25]; // 定义一个常量二维数组 d 作为方向增量数组&#xff0c;用于表示 8 个不同…

SpringMVC学习使用

一、SpringMVC简单理解 1.1 Spring与Web环境集成 1.1.1 ApplicationContext应用上下文获取方式 应用上下文对象是通过new ClasspathXmlApplicationContext(spring配置文件) 方式获取的&#xff0c;但是每次从容器中获得Bean时都要编写new ClasspathXmlApplicationContext(sp…

HCIA项目实践---OSPF的知识和原理总结

9.5 OSPF 9.5.1 从哪些角度评判一个动态路由协议的好坏&#xff1f; &#xff08;1&#xff09;选路佳&#xff08;是否会出环&#xff09; OSPF 协议采用链路状态算法&#xff0c;通过收集网络拓扑信息来计算最短路径&#xff0c;从根本上避免了路由环路的产生。 &#xff08…

算法题(67):最长连续序列

审题&#xff1a; 需要我们在O&#xff08;n&#xff09;的时间复杂度下找到最长的连续序列长度 思路&#xff1a; 我们可以用两层for循环&#xff1a; 第一层是依次对每个数据遍历&#xff0c;让他们当序列的首元素。 第二层是访问除了该元素的其他元素 但是此时时间复杂度来到…

2021年全国研究生数学建模竞赛华为杯E题信号干扰下的超宽带(UWB)精确定位问题求解全过程文档及程序

2021年全国研究生数学建模竞赛华为杯 E题 信号干扰下的超宽带(UWB)精确定位问题 原题再现&#xff1a; 一、背景   UWB&#xff08;Ultra-Wideband&#xff09;技术也被称之为“超宽带”&#xff0c;又称之为脉冲无线电技术。这是一种无需任何载波&#xff0c;通过发送纳秒…

Vue3折线图,柱状图,饼图,各种图表,适用于所有全平台

开发工具&#xff1a;HBuilderX编译器&#xff0c;uniapp&#xff0c;Vue3&#xff1b; 目标&#xff1a;全平台适用&#xff0c;Web端&#xff0c;小程序端&#xff0c;Android端&#xff0c;ios端&#xff0c;快应用等所有平台&#xff0c;鸿蒙app&#xff0c;前端&#xff…

联想电脑如何进入BIOS?

打开设置 下滑找到更新与安全 点击恢复和立即重新启动 选择疑难解答 选择UEFI固件设置 然后如果有重启点击重启 重启开机时一直点击FNF10进入BIOS界面

ICIR2025 | CubeDiff:重新利用基于扩散的图像模型来生成360°全景图

CubeDiff是一种使用基于扩散的图像模型生成 360 全景图的新型框架。通过利用立方体图表示和微调预训练的文本到图像模型&#xff0c;CubeDiff 简化了全景图生成过程&#xff0c;提供了高质量、一致的全景图。 CubeDiff 利用立方体图来表示 360 全景图&#xff0c;并在一次传递中…

YOLO11网络结构以及改进1

YOLO11 1.YOLO11网络结构图在哪里&#xff1f;2.对应的网络结构图3.每一个模块详解3.1 Conv模块3.2关于卷积模块3.3 关于给各个模块指定参数的细节 4.加入CBAM 1.YOLO11网络结构图在哪里&#xff1f; 2.对应的网络结构图 3.每一个模块详解 3.1 Conv模块 位置&#xff1a;ultr…

兔兔答题应用于微信考试、付费考试、社会调查问卷、明星知识问答、员工培训考核、模拟自测、企业面试、试题库等多种场景。

“兔兔答题系统”是一个面向教育、培训和在线测评场景的智能化答题平台&#xff08;兔兔答题官网地址&#xff09;。其设计目标是帮助用户高效完成题目练习、考试组织及学习效果分析&#xff0c;通常具备以下核心功能和特色&#xff1a; 一、核心功能 题库管理 支持多题型录入&…

网络安全防范

实践内容 学习总结 PDR&#xff0c;$$P^2$$DR安全模型。 防火墙&#xff08;Firewall&#xff09;&#xff1a; 网络访问控制机制&#xff0c;布置在网际间通信的唯一通道上。 不足&#xff1a;无法防护内部威胁&#xff0c;无法阻止非网络传播形式的病毒&#xff0c;安全策略…

Java 设计模式之组合模式

文章目录 Java 设计模式之组合模式概述UML代码实现 Java 设计模式之组合模式 概述 组合模式(Composite)&#xff1a;将对象组合成树形结构以表示’部分-整体’的层次结构。组合模式使得用户对单个对象和组合对象的使用具有一致性。优点&#xff1a;客户端可以统一处理单个对象…

基于VS2022在Windows上首次尝试开发C++ gRPC服务端和客户端的详细步骤

文章目录 **1. 创建解决方案与项目****2. 编写proto文件****3. 生成gRPC代码****4. 配置项目属性****服务端项目&#xff08;gRPCServer&#xff09;****客户端项目&#xff08;gRPCClient&#xff09;** **5. 实现服务端代码****6. 实现客户端代码****7. 编译与运行****注意事…

云创智城充电系统:基于 SpringCloud 的高可用、可扩展架构详解-多租户、多协议兼容、分账与互联互通功能实现

在新能源汽车越来越普及的今天&#xff0c;充电基础设施的管理和运营变得越来越重要。云创智城充电系统&#xff0c;就像一个超级智能管家&#xff0c;为新能源充电带来了全新的解决方案&#xff0c;让充电这件事变得更方便、更高效、更安全。 一、厉害的技术架构&#xff0c;让…

【第2章:神经网络基础与实现——2.4 实战案例:使用TensorFlow或PyTorch实现简单的MLP模型】

一、神经网络基础 咱先聊聊神经网络的基础概念。神经网络,简单来说,就是模仿人类大脑神经元结构构建的计算模型。它由大量的节点(也就是神经元)和连接这些节点的边组成。这些节点就像大脑里的一个个小处理器,而边则负责传递信息。 神经元 神经元是神经网络的基本单元。…

【Uniapp】关于实现下拉刷新的三种方式

在小程序、h5等地方中&#xff0c;常常会用到下拉刷新这个功能&#xff0c;今天来讲解实现这个功能的三种方式&#xff1a;全局下拉刷新&#xff0c;组件局部下拉刷新&#xff0c;嵌套组件下拉刷新。 全局下拉刷新 这个方式简单&#xff0c;性能佳&#xff0c;最推荐&#xf…

生成式聊天机器人 -- 基于Transformer实现的SeqToSeq模型 -- 上

生成式聊天机器人 -- 基于Transformer实现的SeqToSeq模型 -- 上 引言数据预处理下载并处理数据数据加载 Transformer模型嵌入层&位置编码层多头注意力机制EncoderLayerDecoderLayerPoint-wise Feed Forward NetworkTransformer 引言 在此之前&#xff0c;我们已经了解了如…

TCP文件传输

文件传输 工作原理 本质:客户端通过标准IO或者文件IO&#xff0c;读取文件中的信息 然后将读取到的信息&#xff0c;通过套接字发送给服务器 服务器接收到这些数据之后&#xff0c;立刻通过标准IO或者文件IO写到文件里面去 这个过程里面&#xff0c;服务器需要知道2件事情 1&…