视频文字转语音经验笔记

自媒体视频制作的一些小经验,分享给大家。

一、音频部分:

1、文字转语音阐述:

微软语音识别:云希-青年男, 0.5-0.8变速 。注:云泽-中年男(不支持长音频录制), 适合郑重场合,关键知识点阐述。
测试工具:
a、小蜗软件,测试效果也可以,综合了各种文字字幕转换工具。ui比较专业,用的微软语音tts内核。输出时长软件设计者也不确定。

b、edge-tts-record0.1.1 同属于微软语音tts内核(测试后推荐,相对比较稳定)。 也可自己录制后转其他音色。局限为30分钟录制限制。实时同步录音,消耗的时间比较长。录音期间,电脑要关闭下载等其他会发生的程序,以免夹杂。比如:网盘程序等。
注:保存音频路径必须为英文或拼音。此工具录制时,属于实时朗读录音。如下图:
在这里插入图片描述
edge-tts-record官方网址:https://github.com/LuckyHookin/edge-TTS-record

c、微软的clipchamp在线视频编辑软件,内置了文字转语音功能,而且是可以使用最新多语音模型的免费工具,时长限制10分钟以内,输出快速,几乎几秒钟,但由于国内访问较慢,所以,启动时需要有些耐心,如果是windows系统,可以直接在系统微软应用商店Microsoft store中 ,查找并安装本地版clipchamp,便于快速使用。如下图:
在这里插入图片描述

clipchamp网址:https://clipchamp.com/zh-hans/video-editor/

d、 tts-vue1.9.15 软件:有ssml 标记语法输入词语拼音,并局部音频剪辑替换。但现在此功能好像已经作废了。
如下图:
在这里插入图片描述

e、关于佛教多音字发音校对的问题,微软ai对于专有中文名词发音有勿,需要用相应的其他词替代。
官方没提供快速字幕文字查找定位时间线功能。需要手动到处srt字幕,之后,在外部文本工具里,查看剪映相应的时间定位点。
不同的字数,会影响多音字发音ai判断。比如“一乘了义”中的“了” 不带标点 ',仅四个字 了 发liao,多字带标点发le。

【阿弥陀佛】发错音e,需要转为 【阿`弥陀佛】发a音。

【一乘了义】误读le,改为 【一乘`了义】了应发liao,多字带标点,发le音。

【十行】 错误音 hang, 需要改为 【十`行】后发 xing音。

【诸佛刹土】 错误音 sha 需要改为【诸`佛刹土】 后发cha 音。

【迦叶】 误读为 ye,需要转为拟音字“舍” 后,【迦舍】 后发she音。

【舍利弗】误读fu,改为拟音替代字“佛”后,【舍利佛】后发fo音。

2、配乐音效素材:

剪映官方,不多说,技术已经普及。

3、音色转换:

预方案:RMAIVoiceChanger(原入梦RVC软件)。因为涉及音频版权问题,暂时没使用。
选择了微软云希,简单快捷,语速设为0.8,平稳清晰。

二、图像部分:

1、图片素材来源:

主要使用了baidu图片搜索,没别的,省心省时间,免争议,因为是非商业小范围用途,与名利无关,所以也没啥可担心的,阿弥陀佛,哈哈。如果使用本地ai图片生成程序,比如:fooocus 图片生成和修改也很方便,但为了提升出图速度,建议关闭其他程序,仅运行ai程序。对于显存小于8G的设备,就别本地了,直接随缘,用现有公共平台生图就好了。

PS:虽然科技越来越发达,但是其实,永远满足不了人对快捷方便的需求,欲望是无忧截止的!哈哈。而且,新东西背后也伴随着大量未知问题与隐患的诞生。这就是为啥,高技术时间越长,越抵触技术更新,不是新技术不好,而是,很多潜在问题,你不知道。哈哈。所以,中国的科技创新都是很谨慎的,对于越大的项目,选择技术方案也更谨慎,因为利弊是同时并存的。同时并存而生。人要做的就是权衡权重了。

在自媒体方面,看似最简陋的方式,比如自拍或是原创手绘,在后期版权争议方面,却是最安全保险的开发方式。从历史的角度看,越是肯前期投入的,或是遵循承传老方法(尊重版权),成熟技术的行业,越是最稳当保险的,走的也会越长远。比如:各类民族老字号行当,同仁堂。艺术文化方面,更是如此,魅力就在于它古香古色原汁原味,才有价值,就像古董,越老越有价值。哈哈。

注意:现在ai 生图存在大量的版权争议,相关法律法规还不成熟稳定。所以,真正商用最好是纯原创,以免最后法律纠纷,自己用三维或是平面软件自制虽然看似麻烦,却省去了后边大量的麻烦。不要耍小聪明,以为占别人便宜,用现成的多好呀,哈哈,其实,钻别人漏洞就是钻自己漏洞。一切皆有因果,报应只是来早与来迟而已。老实人总是走的最远,活得最久的那一个。哈哈。南无阿弥陀佛。

A、fooocus内置了脸部替换,如果不满意,可以用ai换脸工具涉及到一些法律问题,争议也是有的,所以最好的方式,尽量避免使用真人角色出镜。即使是ai全虚拟角色,只要是出名了,就有人找你麻烦,蹭热度,哈哈。这就是所谓的,识人多处是非多,名利背后就是地狱,哈哈。

B、图片测试工具:开源krita或GIMP修图足够。

C、手部修复,fooocus内置了手部修复。经测试,但仅限于一个一个替换,效率不高。多首修复时,仍然还会有问题。当然软件也在不断迭代。

D、图片缩放,fooocus 1.5倍放大,nv2070s显存能承担2k左右。2倍放大就卡死了,估计显存不足。ai这东西就是浪费你显卡的把戏,不但费钱,还费时间,不管那种ai都需要你等待和不断修改,测试出图,真正能直接用的,都是没啥特别要求凑数的。哈哈。

所以,ai看似方便,其实,还是需要大量精力和时间投入的,没亲自尝试过的人,都被忽悠了。传统影视制作虽然前期很慢,但是,后期维护和精准把控方面,比ai要方便的多。当然,成本也高。越是严谨的需要特别控制的领域,ai的自由度反而越小。特别是传统重工业航天领域,ai随机性的优势就发挥不出来。其实,人体就是一个ai生物机器人,真正要达到人工最能,需要实时的不停的对ai进行训练,而现有的所有的模型都是固话了经验,其实,发布的同时,就已经过时了。因为,人的需求都在实时的变化,而程序都是死的,固化了的。哎虽然看似灵活,也只是在某一范围给予自由度。为机器与生命最大的界限就在于,生命体是完全不定的,刹那变化生死的,生命体也不是偶然的,是大自然造化制造出来的影像,量子领域的研究让人类逐渐接近宇宙的真相。科技与宗教的边界在逐渐打破。很多无法解释的问题,都会被认知。

PS:其实ai是没有创造力的,因为现有ai也只不过是在原有人类原有经验基础上的一种 二次混合 技术而已。ai无法做到无中生有。这也是哲学领域对人类未知的最大探索谜题,的存在,是无法被制造和模仿的,没有实体却能生万物。其实,如果你学过大乘佛法和道经,对于人生真相的认知早就成熟了。只是我们没有机会接触古老的智慧而已。人类现有的科技也不过是过去人类生生世世轮回经验的积累。通过催眠科学,大家发现,原来人类的灵魂是永生的,地球文明生生不息,连续不断的。现在人类300年间,解锁的科技其实早就是前人研究过的。人的所谓的灵感,不过是前世潜意识,记忆的恢复。也包含一些其他维度灵性的指导。说的有点深了,哈哈。

2、音频转字幕生成:

剪映内置,ai语音转字幕。 每次转换限制字数5000内。支持文字参考输入。
a、超长分钟以上音频,需要先将语音音频剪裁为多段,每段与输入文本对应的内容,如果文字与音频内容不对应,整体长度不一致,会出现字幕生成错位问题。
b、每次转字幕时,必须把每段音频拖到新轨道,并点选音频轨道后。锁定并静音其他轨道,一次次生成。最终合并一起。
c、最后,每转一段,最好把音轨与字幕合成一个剪辑组,便于拖动组合。最后都合并为一轨道里,最后,可以取消各分段的剪辑组。恢复字幕和音频独立状态,再合并为一个大剪辑组。便于管理分割。
d、如果音频与视频分离的,可以合为同步视频,最后合为一个大的剪辑组,便于之后剪辑。
e、视频转化低编码,可以用开源工具file converter (右键快速菜单)工具。高效环保。

3、剪映剪辑技巧:

a、同轨道两片段拖动对齐时,后一个对不上前一个,差一点就自动建到新轨去了。经实验,发现,将当前游标,移到前片段尾部自动吸附后,再拖动后片段到前片段尾部就对齐了。
b、剪映没有阴影特效。只能通过假阴影模拟,一种是默认官方黑片+方形蒙版(边缘模糊)
另一种是用绘图软件, 手动做个png透明阴影图片,导入。
c、复合片段,有变速标签项,可以后期整体变速,但音频部分要适当做音频变速补偿,否则会失真。
d、封面的导出,任何视频、音频、字幕导出,都会自动包含封面,可仅选择字幕导出即可输出封面,加快输出速度。
e、修改内容后,剪映预览无法更新问题。可以关闭自动渲染功能,并删除预渲染视频文件,即可完成视频的更新显示。在全局设置中,第三个标签项下,可以找到预渲染视频文件夹设置,和自动渲染选项,关闭自动渲染,固态硬盘无需预渲染,流畅度不影响。

4、其他经验:

b站视频回复时,如何添加快捷时间标记到回复里,作为内容预览大纲:
直接输入时间码,比如: 52:00 +空格+内容文字 ,即可生成时间跳转索引。

三、感言:

最后,再提示大家,技术只是…只是…只是…工具而已,就像人的画笔,不要执着于任何工具,因为你无法得到一劳永逸的技术,他们都是无常苦空因缘所生。感叹,自己从事技术几十年,就没有一天能安心的。总在因技术日新月异,学不完,学不尽,而且还老出新问题,新麻烦,哈哈。真不如佛法,一劳永逸。一句名号,念到死都能得利。哈哈哈。可能是我年纪大了,中年后学不动了吧。科技这东西确实该交给年轻人研究了。南无阿弥陀佛。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/372049.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Oracle 解决4031错误

一、问题描述 什么是4031错误和4031错误产生的原因: 简单一个句话概括: 由于服务器一直在执行大量的硬解析,导致Oracle 的shared pool Free空间碎片过多,大的chunk不足, 当又一条复杂的sql语句要硬解析时, 缺少1个足够大的Free chunk, 通常就会报4031错误. 二、解决方法 临…

亚信安全发布2024年6月威胁态势,高危漏洞猛增60%

近日,亚信安全正式发布《2024年6月威胁态势报告》(以下简称“报告”),报告显示,6月份新增信息安全漏洞 1794个,高危漏洞激增60%,涉及0day漏洞占67.67%;监测发现当前较活跃的勒索病毒…

438. 找到字符串中所有字母异位词

思路&#xff1a;字母异位词在排序后会得到相同的字符串&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01; class Solution { public:vector<int> findAnagrams(string s, string p) {int np.length();//p的长度vector<int> ans{};if(n&g…

2024最新版若依-RuoYi-Vue3-PostgreSQL前后端分离项目部署手册教程

项目简介: RuoYi-Vue3-PostgreSQL 是一个基于 RuoYi-Vue3 框架并集成 PostgreSQL 数据库的项目。该项目提供了一套高效的前后端分离的开发解决方案&#xff0c;适用于中小型企业快速构建现代化的企业级应用。此项目结合了 RuoYi-Vue-Postgresql 和 RuoYi-Vue3 的优点&#xff0…

为什么要设计DTO类

为什么要使用DTO类&#xff0c;下面以新增员工接口为例来介绍。 新增员工 1.1 需求分析和设计 1.1.1 产品原型 一般在做需求分析时&#xff0c;往往都是对照着产品原型进行分析&#xff0c;因为产品原型比较直观&#xff0c;便于我们理解业务。 后台系统中可以管理员工信息…

比赛获奖的武林秘籍:04 电子类比赛嵌入式开发快速必看的上手指南

比赛获奖的武林秘籍&#xff1a;04 电子类比赛嵌入式开发快速必看的上手指南 摘要 本文主要介绍了电子类比赛中负责嵌入式开发同学的上手比赛的步骤、开发项目的流程和具体需要学习的内容&#xff0c;并结合自身比赛经历给出了相关建议。 正文 如何开始上手做自己第一个项目…

MySQL数据库-Windows部署MySQL环境

Windows部署MySQL环境​​​​​​ 一、下载mysql数据库 进入MySQL官方网站&#xff08;MySQL :: MySQL DownloadsMySQL&#xff09;&#xff0c;随后按如下红框方式操作&#xff1a; ​ ​ ​ ​ 这里选择的是离线安装&#xff0c;第一个是在线安装 下载好安装包后开始…

前端学习(三)CSS介绍及选择符

##最近在忙期末考试&#xff0c;因此前端笔记的梳理并未及时更新。在学习语言过程中&#xff0c;笔记的梳理对于知识的加深very vital.因此坚持在明天学习新知识前将笔记梳理完整。 主要内容&#xff1a;CSS介绍及选择符 最后更新时间&#xff1a;2024/7/4 目录 内容&#x…

Element中的表格组件Table和分页组件Pagination

简述&#xff1a;在 Element UI 中&#xff0c;Table组件是一个功能强大的数据展示工具&#xff0c;用于呈现结构化的数据列表。它提供了丰富的特性&#xff0c;使得数据展示不仅美观而且高效。而Pagination组件是一个用于实现数据分页显示的强大工具。它允许用户在大量数据中导…

阶段三:项目开发---大数据开发运行环境搭建:任务5:安装配置Kafka

任务描述 知识点&#xff1a;安装配置Kafka 重 点&#xff1a; 安装配置Kafka 难 点&#xff1a;无 内 容&#xff1a; Kafka是由Apache软件基金会开发的一个开源流处理平台&#xff0c;由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统&#xff0c;…

c#第五次作业

目录 1. 实现通用打印泛型类&#xff0c;可以打印各个集合中的值&#xff0c;方便调试 2. 计算遍历目录的耗时 3. 有哪些算术运算符&#xff0c;有哪些关系运算符&#xff0c;有哪些逻辑运算符&#xff0c;有哪些位运算符&#xff0c;有哪些赋值运算符 1&#xff09;算术运算…

浅析C++引用

浅析C引用"&" ​ C中引入了一个新的语言特性——引用(&)&#xff0c;它表示某一对象的别名&#xff0c;对象与该对象的引用都是指向统一地址。那么我们就来看看关于引用的一些知识点吧&#x1f9d0; 特性 引用在定义时必须初始化一个变量可以有多个引用引…

STM32Cube高效开发教程<高级篇><FreeRTOS>(二)-----FreeRTOS的文件组成和基本原理

声明&#xff1a;本人水平有限&#xff0c;博客可能存在部分错误的地方&#xff0c;请广大读者谅解并向本人反馈错误。    本专栏博客参考《STM32Cube高效开发教程(高级篇)》&#xff0c;有意向的读者可以购买正版书籍辅助学习&#xff0c;本书籍由王维波老师、鄢志丹老师、王…

MinIO:开源对象存储解决方案的领先者

MinIO:开源对象存储解决方案的领先者 MinIO 是一款开源的对象存储系统&#xff0c;致力于提供高性能、可伸缩、安全的数据存储解决方案。 官方解释&#xff1a;MinIO 是一个基于Apache License v2。0开源协议的对象存储服务。它兼容亚马逊S3云存储服务接口&#xff0c;非常适…

什么是T0策略?有没有可以持仓自动做T的策略软件?

​​行情低迷&#xff0c;持仓被套&#xff0c;不想被动等待&#xff1f;长期持股&#xff0c;想要增厚持仓收益&#xff1f;有没有可以自动做T的工具或者策略&#xff1f;日内T0交易&#xff0c;做到降低持仓成本&#xff0c;优化收益预期。 什么是T0策略&#xff1f; 可以提…

SpringBoot之内容协商

现象演示 假设有一个需求是根据终端的不同&#xff0c;返回不同形式的数据&#xff0c;比如 PC 端需要以 HTML 格式返回数据&#xff0c;APP、小程序端需要以 JSON 格式返回数据。这时我们是 coding 几个相似的接口&#xff1f;还是在一个接口里面做复杂判断处理&#xff1f;两…

7.8作业

一、思维导图 二、 1】按值修改 2】按值查找&#xff0c;返回当前节点的地址 &#xff08;先不考虑重复&#xff0c;如果有重复&#xff0c;返回第一个&#xff09; 3】反转 4】销毁链表 //按值修改 int value_change(linklistptr H,datatype e,int value) {if(HNULL||empty(H…

二次元转向SLG,B站游戏的破圈之困

文 | 螳螂观察 作者 | 夏至 2023年是B站游戏的滑铁卢&#xff0c;尽管这年B站的游戏营收还有40多亿&#xff0c;但相比去年大幅下降了20%&#xff0c;整整少了10亿&#xff0c;这是过去5年来的最大跌幅&#xff0c;也是陈睿接管B站游戏业务一年以来&#xff0c;在鼻子上碰的第…

【Java系列】深入解析 Lambda表达式

简化这个代码 这个就是Lambda表达式,可以简化匿名内部类的写法 package lambda;public class demo2 {public static void main(String[] args) {//第二个参数是一个接口,所以我们在调用方法的时候,需要传递这个接口的实现类对象--接口多态// 但是这个实现类,我只要用一次,所以我…

SRS流媒体服务器概述

SRS/5.0(Bee) is a simple, high efficiency and realtime video server, supports RTMP, WebRTC, HLS, HTTP-FLV, SRT, MPEG-DASH and GB28181. 翻译&#xff1a;SRS/5.0(Bee)是一款简洁、高效、实时的视频服务器&#xff0c;支持RTMP、WebRTC、HLS、HTTP-FLV、SRT、MPEG-DAS…