WavJourney：进入音频故事情节生成世界的旅程

news/2024/12/24 3:47:09/文章来源:https://blog.csdn.net/ygtu2018/article/details/132835120

推荐：使用 NSDT场景编辑器快速搭建3D应用场景

若要正确查看音频生成的强大功能，请考虑以下方案。我们只需要提供一个简单的指令，描述场景和场景设置，模型就会生成一个扣人心弦的音频脚本，突出与原始指令的最高上下文相关性。

指令： 在科幻小说主题中生成音频：火星新闻报道人类向半人马座阿尔法星发送光速探测器。从新闻主播开始，然后是记者采访由联合地球和火星政府创立的建造这个探测器的组织的总工程师，最后再次以新闻主播结束。

生成的音频：https://audio-agi.github.io/WavJourney_demopage/sci-fi/sci-fi%20news.mp4

为了真正了解这个奇迹的内部运作，让我们深入了解生成过程的方法和实现细节。

生成过程

下图在一个简单的流程图中总结了整个过程。

WavJourney：进入音频故事情节生成世界的旅程

端到端音频生成过程由多个子模块组成，这些子模块按顺序执行，用于完整的文本到音频模型。

音频脚本生成

WavJourney利用GPT-4模型和预定义的提示模板来生成脚本。提示模板将输出限制为简单的 JSON 格式，以后计算机程序可以轻松解析。每个脚本都有 3 种不同的音频类型，如上图所示：语音、音效和音乐。然后，每种音频类型都可以作为前景音频运行，也可以作为背景声音效果覆盖在其他音频上。其他属性（如内容描述、长度和字符）足以正式定义脚本生成的音频设置。

脚本解析

然后，输出脚本通过计算机程序传递，该程序解析预定义 JSON 脚本格式中的相关信息。它将每个描述和字符与预设的语音音频相关联。此过程有助于将音频生成过程分解为单独的步骤，包括文本到语音转换、音乐和声音添加。

音频生成

解析后的脚本作为 Python 程序执行。首先生成前景语音，由背景音乐和音效覆盖。对于语音生成，该模型使用预先训练的 Bark 模型和 VoiceFixer 恢复模型来提高音频质量。AudioLDM和MusicGen模型用于声音效果和音乐叠加。所有三种型号的输出组合在一起，形成最终的音频输出。

人机共创

该过程维护生成的脚本的上下文，并且可以类似于 GPT 模型进行提示。您可以使用 GPT 模型的人工反馈和聊天功能轻松修改生成的脚本。

添加特定的细节和音效再简单不过了。下面的流程图显示了添加或修改生成的脚本的特定详细信息是多么简单。

结论

音频生成模式可以改变娱乐行业的游戏规则。该过程能够生成引人入胜的叙述和故事，可用于教育和娱乐目的，自动化繁琐的画外音和视频生成过程。

有关详细理解，请在此处概述论文。该代码将很快在GitHub上提供。

原文链接：WavJourney：进入音频故事情节生成世界的旅程 (mvrlink.com)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/135536.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

小米6/6X/米8/米9手机刷入鸿蒙HarmonyOS.4.0系统-刷机包下载-遥遥领先

小米6/6X/米8/米9手机刷入鸿蒙HarmonyOS.4.0系统-刷机包下载-遥遥领先

小米手机除了解锁root权限，刷GSI和第三方ROM也是米粉的一大爱好，这不，在华为发布了HarmonyOS.4.0系统后不久，我们小米用户也成功将自己的手机干山了HarmonyOS.4.0系统。虽然干上去HarmonyOS.4.0系统目前BUG非常多，根本…

阅读更多...

数仓主题域和数据域、雪花模型，星型模型和星座模型

数仓主题域和数据域、雪花模型，星型模型和星座模型

数仓模型和领域划分一、主题域和数据域的差别二、雪花模型，星座模型和星型模型一、主题域和数据域的差别明确数据域作为数仓搭建的重要一环，能够让数仓的数据便于管理和应用。数据域和主题域都是数据仓库中的重要概念，但含义略有不同&am…

阅读更多...

【Pinia】Pinia的概念、优势及使用方式

【Pinia】Pinia的概念、优势及使用方式

学习公司的项目，发现用到了Pinia，于是上网学习了一下，发现了一篇比较优秀的文章，于是将极少部分放到此记录学习，原文链接在末尾。是什么官网解释： Pinia 是 Vue 的存储库，它允许您跨组件/页…

阅读更多...

2023年中国场馆产业研究报告

2023年中国场馆产业研究报告

第一章行业综述 1.1 定义与分类场馆，作为一个多元化和充满活力的行业，为人们提供了一个为不同目的而聚集的空间。无论是为了活动、表演、展览还是聚会，场馆都在为社区的社会、文化和经济建设做出了不可或缺的贡献。场馆是一个为举办各类…

阅读更多...

VR全景展示的功能有哪些？你了解多少？

VR全景展示的功能有哪些？你了解多少？

VR全景展示作为一种全新的视觉体验技术，能够为人们带来强烈的视觉效果以及沉浸式的观感，在旅游、房地产、车展、博物馆等都有着十分广泛的应用。这种富媒体技术，具有很好的交互性和沉浸感，能够带给大家更好的体验，那么…

阅读更多...

uni-app实现web-view图片长按下载

<template><view><web-view :webview-styles"webviewStyles" :src"webUrl"></web-view></view> </template> uniapp的web-view中图片无法长按保存，IOS下是正常的，但是Android下长按无反应解…

阅读更多...

如何统计iOS产品不同渠道的下载量？

如何统计iOS产品不同渠道的下载量？

一、前言在开发过程中，Android可能会打出来很多的包，用于标识不同的商店下载量。原来觉得苹果只有一个商店：AppStore，如何做出不同来源的统计呢？本篇文章就是告诉大家如何做不同渠道来源统计。二、正文先看一下苹…

阅读更多...

【C++模拟实现】map、set容器的模拟实现

【C++模拟实现】map、set容器的模拟实现

【C模拟实现】map、set容器的模拟实现目录【C模拟实现】map、set容器的模拟实现map、set模拟实现的代码（insert部分）部分一：红黑树的迭代器以及红黑树部分二：对set进行封装部分三：对map进行封装遇到的问题以及解决方…

阅读更多...

Stability AI推出Stable Audio；ChatGPT：推荐系统的颠覆者

Stability AI推出Stable Audio；ChatGPT：推荐系统的颠覆者

🦉 AI新闻 🚀 Stability AI推出Stable Audio，用户可以生成个性化音乐片段摘要：Stability AI公司发布了一款名为Stable Audio的工具，用户可以根据自己的文本内容自动生成音乐或音频。免费版可生成最长20秒音乐片段&a…

阅读更多...

JL653—一个基于ARINC653的应用程序仿真调试工具

JL653—一个基于ARINC653的应用程序仿真调试工具

JL653是安装在PC机Windows操作系统上面的一层接插件，它能够真实地模拟ARINC653标准规定的功能性行为，从而可以供研发人员在PC机Windows环境下高效、快速的进行基于ARINC653的应用程序的开发、调试等。 JL653提供了ARINC 653 Part 1中要求的以下服务&…

阅读更多...

手把手教你搭建农产品商城小程序：详细步骤解析

手把手教你搭建农产品商城小程序：详细步骤解析

随着移动互联网的普及，越来越多的人开始关注如何在手机上进行购物，尤其是对于农产品这类日常生活所需品。本文将手把手教你搭建一个农产品商城小程序，让你轻松实现在手机上购买农产品的愿望。一、登录乔拓云网后台首先，我们需要…

阅读更多...

ARM Linux DIY（十一）板子名称、开机 logo、LCD 控制台、console 免登录、命令提示符、文件系统大小

文章目录前言板子名称uboot Modelkernel 欢迎词、主机名开机 logoLCD 控制台console 免登录命令提示符文件系统大小前言经过前面十篇文章的介绍，硬件部分调试基本完毕，接下来的文章开始介绍软件的个性化开发。板子名称 uboot Model 既然是自己的…

阅读更多...

Lua学习笔记：在Visual Studio中调试Lua源码和打断点

Lua学习笔记：在Visual Studio中调试Lua源码和打断点

前言本篇在讲什么调试Lua源码本篇需要什么对Lua语法有简单认知依赖Visual Studio工具本篇的特色具有全流程的图文教学重实践，轻理论，快速上手提供全流程的源码内容 ★提高阅读体验★ 👉 ♠ 一级标题 👈 &…

阅读更多...

HTTP状态码301(永久重定向)不同Web服务器的配置方法

HTTP状态码301(永久重定向)不同Web服务器的配置方法

文章目录 301状态码通常在那些情况下使用301永久重定向配置Nginx配置301永久重定向Windows配置IIS301永久重定向PHP下的301重定向Apache服务器实现301重定向 301重定向是否违反相关法规？推荐阅读当用户或搜索引擎向服务器发出浏览请求时，服务器返回的HT…

阅读更多...

Linux 企业级夜莺监控分析工具远程访问

Linux 企业级夜莺监控分析工具远程访问

目录前言 1. Linux 部署Nightingale 2. 本地访问测试 3. Linux 安装cpolar 4. 配置Nightingale公网访问地址 5. 公网远程访问Nightingale管理界面 6. 固定Nightingale公网地址前言夜莺监控是一款开源云原生观测分析工具，采用 All-in-One 的设计理念&…

阅读更多...

elasticsearch17-自动补全

elasticsearch17-自动补全

个人名片： 博主：酒徒ᝰ. 个人简介：沉醉在酒中，借着一股酒劲，去拼搏一个未来。本篇励志：三人行，必有我师焉。本项目基于B站黑马程序员Java《SpringCloud微服务技术栈》，SpringCloud…

阅读更多...

【面试题】智力题

【面试题】智力题

文章目录腾讯1000瓶毒药里面只有1瓶是有毒的，问需要多少只老鼠才能在24小时后试出那瓶有毒。有两根不规则的绳子，两根绳子从头烧到尾均需要一个小时，现在有一个45分钟的比赛，裁判员忘记带计时器，你能否通过烧绳子的方…

阅读更多...

[k8s] pod的创建过程

[k8s] pod的创建过程

pod的创建过程定义 Pod 的规范： apiVersion: v1 kind: Pod metadata:name: my-pod spec:containers:- name: my-containerimage: nginx:latest创建 Pod 对象： 使用 kubectl 命令行工具或其他客户端工具创建 Pod 对象： kubectl create -f…

阅读更多...

线程锁（Thread Lock）和进程锁（Process Lock）

线程锁（Thread Lock）和进程锁（Process Lock）

在Python中，线程锁（Thread Lock）和进程锁（Process Lock）具有相似的功能，但它们分别用于同步多线程和多进程环境中的资源访问。进程锁进程锁（Process Lock）可以用于在多进程环境中…

阅读更多...

千巡翼X1 让航测无人机更小更轻更高效

千巡翼X1 让航测无人机更小更轻更高效

利用无人机进行航空摄影测量，已成为测绘外业生产的主要方式，不仅方便快捷，更能全面准确获得成果。近年来，凭借快速高效、机动灵活、安全可靠、低成本等诸多优势，小型多旋翼无人机逐渐成为一些航测项目作业的新利器。千…

阅读更多...

最新文章

推荐文章