AI应用带你玩系列之SadTalker

前段时间我刷微信视频,我无意间点开了一个,画面缓缓展开,是一幅精致的水墨画,画中人物皆是古代装束,衣袂飘飘,仿佛能闻到墨香。然而,这宁静的画面突然被打破了,画中的人物开始动了起来,他们的嘴型和面部表情生动地配合着一首现代流行歌曲《一人我饮酒醉》。我惊呆了,这究竟是怎样的魔法,能让古画中的人物如此生动地“嗨歌”?

好奇心驱使下,我深入探索,发现了一个名为“让照片说话”的算力应用。这不仅仅是一个简单的软件,它背后蕴含的是最新的AI技术——深度学习和计算机视觉的结合。这项技术能够分析图片中人物的面部特征,然后通过算法模拟出相应的嘴型和表情,再配上声音,就能创造出仿佛真人一般的动态效果。

朋友们,今天我就是要带大家一起玩一下这个应用。一起嗨起来。

首先是网址一定不要打错了。https://www.haoee.com/

每一个新注册用户,账户会有5元应用试用金额。大概能体验两款应用,每个应用体验1小时。所以要一定要选择好自己的目标。

1、注册一个账号,用手机号注册,直接绑定手机,还不容易忘记。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2、开心登录

在这里插入图片描述

3、点击【立即创建】

在这里插入图片描述

4、我们今天的目标应用【SadTalker】

跟我一起读一下他的简单介绍

SadTalker

Sadtalker 让照片能说话
基于深度学习的AI数字人制作工具,可以通过对照片中的人物进行动态化处理,生成具有头部运动和面部表情的数字人。
1、让照片中的人物动起来,能说话;
2、人物口唇自然流畅,宛如原生;

在这里插入图片描述

5、不要着急,先和我一起【查看详情】

在这里插入图片描述

详情页面有SadTalker的详细说明:

SadTalker是一个开源的人工智能项目,专注于情感理解和对话生成。该项目主要基于深度学习技术,理解和生成具有情感色彩的对话,并特别关注负面情绪的处理和表达。

SadTalker可以应用在以下几个方面:心理咨询助手、情感智能机器人、AI数字人制作工具,SadTalker还提供了易于使用的API接口,使得其他应用可以方便地集成其功能,如在聊天应用中实现情绪感知的自动回复。对于对AI聊天机器人、自然语言处理(NLP)或情感分析感兴趣的人来说,SadTalker是一个极具价值的学习和实践资源。

6 、从详情页面进入使用

在这里插入图片描述

7、 创建应用

在这里插入图片描述

8、 按照默认创建一个应用

在这里插入图片描述

开机中…

我们要等一会。直到应用状态变成了:运行中。如下图。

在这里插入图片描述

9、打开引用

在这里插入图片描述

SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation (CVPR 2023)

翻译:SadTaker:为风格化音频驱动的单图像会说话的人脸动画学习逼真的3D运动系数(CVPR 2023

10、首先拖动音频文件到指定的地方

在这里插入图片描述

在这里插入图片描述

11、这里需要一个图片

在这里插入图片描述

我选了个美女,和我一起嗨。

在这里插入图片描述

12、生成看看

选项

在这里插入图片描述

点击生成
在这里插入图片描述

这里看进度

在这里插入图片描述

13、生成结果

等待的时候顺便学一些英语单词吧。

crop resize full

裁剪 调整 全文;(翻译可能有误)

Still Mode (fewer head motion, works with preprocess full)

静止模式(较少的头部运动,与预处理“完全”一起工作)

GFPGAN as Face enhancer

GFPAGAN作为人脸增强剂

batch size in generation

生成中的批量大小

face model resolution

人脸模型分辨率

美女嗨

在这里插入图片描述

杜甫嗨

在这里插入图片描述

鲁迅嗨

img

一起嗨

img

快来创意你的作品吧 。 让图片里的朋友们动起来,让我们嗨起来。

14、完整的故事是这样的

前段时间我刷微信视频,我无意间点开了一个视频,画面缓缓展开,是一幅精致的水墨画,画中人物皆是古代装束,衣袂飘飘,仿佛能闻到墨香。然而,这宁静的画面突然被打破了,画中的人物开始动了起来,他们的嘴型和面部表情生动地配合着一首现代流行歌曲《一人我饮酒醉》。我惊呆了,这究竟是怎样的魔法,能让古画中的人物如此生动地“嗨歌”?

好奇心驱使下,我深入探索,发现了一个名为“让照片说话”的算力应用。这不仅仅是一个简单的软件,它背后蕴含的是最新的AI技术——深度学习和计算机视觉的结合。这项技术能够分析图片中人物的面部特征,然后通过算法模拟出相应的嘴型和表情,再配上声音,就能创造出仿佛真人一般的动态效果。

后来我在网络上搜索了关于这个视频的生成技术,我决定尝试一下这个令人兴奋和期待的新技术——让历史人物杜普的照片开口说话。杜普,这位历史上的智者,以其深邃的思想和卓越的成就闻名于世。我想象着,如果能让他的肖像唱起现代流行歌曲,那将是一次多么有趣的跨时空对话。

我打开电脑,启动了最新的AI算力应用。这个应用利用了先进的深度学习技术和计算机视觉算法,能够分析静态图像中人物的面部结构,并模拟出自然的嘴型和表情,从而实现“让照片说话”的神奇效果。

我小心翼翼地将杜普的肖像上传到应用中,选择了他那张著名的沉思照。接着,我在应用中输入了一首现代流行歌曲的歌词,心中充满了期待和一丝紧张。应用开始工作,屏幕上出现了进度条,我目不转睛地盯着,仿佛在见证一个奇迹的诞生。

几分钟后,视频生成完毕。我深吸一口气,点击了播放。画面中的杜普缓缓地动了起来,他的嘴型和表情随着歌词的节奏变化,仿佛真的在唱歌。我惊讶地发现,他的眼神中似乎还透露出一种对现代世界的惊奇和好奇。

这一刻,我仿佛穿越了时空,与杜普进行了一次跨越千年的对话。这项技术不仅仅是一次有趣的尝试,它让我感受到了科技与人文的完美结合。我意识到,AI技术不仅仅是冷冰冰的代码,它还能以一种全新的方式连接过去与现在,让历史人物以一种前所未有的方式“活”起来。

这次技术尝试让我对AI技术的潜力有了更深的认识。它不仅能够娱乐我们,还能够教育我们,让我们以一种全新的视角去理解和感受历史。我期待着未来,这项技术能够被更广泛地应用,让更多的人能够体验到这种跨越时空的奇妙对话。

15、关注我,一起玩丰富多彩的AI应用,一起嗨起来

随着AI技术的不断进步,我们的生活正逐渐被这些智能应用所丰富和改变。从图片生成到直播换脸术,这些新颖的玩法不仅为我们带来了娱乐和乐趣,更展示了人工智能在创意表达和技术融合方面的无限潜力。

在接下来的文章中,我将带领大家一起探索这些令人兴奋的AI应用。我们将一起尝试使用先进的算法来创作独一无二的图片,体验直播换脸术带来的惊喜和欢笑。这些尝试不仅是对技术的探索,更是对未来可能性的展望。

AI技术的发展不仅仅是科技领域的进步,它正在逐步渗透到我们的日常生活中,改变我们沟通、娱乐和学习的方式。通过这些有趣的实验和应用,我们可以更直观地感受到AI技术的魅力,以及它对我们生活的深远影响。

让我们一起期待,随着AI技术的不断成熟和完善,未来会有更多创新和有趣的应用出现。我们将继续在这个充满可能性的数字世界中探索,发现更多令人惊叹的AI奇迹。敬请关注我们的后续文章,一起开启这场科技与创意的奇妙之旅。

print("一起探索AI应用,请记住网址:https://www.haoee.com/")
print("一起探索AI应用,请记住网址:https://www.haoee.com/")
print("一起探索AI应用,请记住网址:https://www.haoee.com/")

关注我,不迷路,共学习,同进步

关注我,不迷路,共学习,同进步

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/358033.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

初识 SpringMVC,运行配置第一个Spring MVC 程序

1. 初识 SpringMVC,运行配置第一个Spring MVC 程序 文章目录 1. 初识 SpringMVC,运行配置第一个Spring MVC 程序1.1 什么是 MVC 2. Spring MVC 概述2.1 Spring MVC 的作用: 3. 运行配置第一个 Spring MVC 程序3.1 第一步:创建Mave…

鸿蒙开发系统基础能力:【@ohos.faultLogger (故障日志获取)】

故障日志获取 说明: 本模块首批接口从API version 8开始支持。后续版本的新增接口,采用上角标单独标记接口的起始版本。 导入模块 import faultLogger from ohos.faultLoggerFaultType 故障类型枚举。 系统能力: 以下各项对应的系统能力…

利用MSSQL模拟提权

点击星标,即时接收最新推文 本文选自《内网安全攻防:红队之路》 扫描二维码五折购书 利用MSSQL模拟提权 在MS SQL数据库,可以使用EXECUTE AS语句,以其他用户的上下文执行SQL查询。需要注意的是只有明确授予模拟(Impers…

vuex的深入学习[基于vuex3]----篇(二)

store对象的创建 store的传递图 创建语句索引 创建vuex的语句为new Vuex.Store({…})Vuex的入口文件是index.js,store是index.js导出的store类store类是store.js文件中定义的。 Store的构造函数constructor 判断vuex是否被注入,就是将vue挂载在window对象上&am…

Java | Leetcode Java题解之第169题多数元素

题目: 题解: class Solution {public int majorityElement(int[] nums) {int count 0;Integer candidate null;for (int num : nums) {if (count 0) {candidate num;}count (num candidate) ? 1 : -1;}return candidate;} }

TLS握手中的RTT

文章目录 TLS 1.2 握手过程中的 RTT 次数TLS 1.3 1-RTT 初次TLS1.3 0-RTT 握手过程总结 TLS 1.2 握手过程中的 RTT 次数 TLS 1.2 握手通常需要2 RTT 才能完成。具体步骤如下: 第一次 RTT: 客户端发送 ClientHello:客户端生成一个随机数&…

26.3 Django路由层

1. 路由作用 在Django中, URL配置(通常称为URLconf)是定义网站结构的基础, 它充当着Django所支撑网站的目录. URLconf是一个映射表, 用于将URL模式(patterns)映射到Python的视图函数或类视图上. 这种映射机制是Django处理HTTP请求的基础, 它决定了当客户端发送请求时, Django如…

消息认证码解析

1. 什么是消息认证码 消息认证码(Message Authentication Code)是一种确认完整性并进行认证的技术,取三个单词的首字母,简称为MAC。 消息认证码的输入包括任意长度的消息和一个发送者与接收者之间共享的密钥,它可以输出固定长度的数据&#x…

AIGC-Animate Anyone阿里的图像到视频 角色合成的框架-论文解读

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation 论文:https://arxiv.org/pdf/2311.17117 网页:https://humanaigc.github.io/animate-anyone/ MOTIVATION 角色动画的目标是将静态图像转换成逼真的视频,这在在线零…

ip地址怎么写才是的对的?合法ip地址正确的格式

IP地址怎么写才是的对的?在互联网的世界里,IP地址就像是我们生活中的门牌号码,它是每个设备在网络中的唯一标识。正确的书写IP地址对于确保网络通信的顺畅至关重要。本文将带您了解合法IP地址的正确格式与书写规范,并深入探讨其在…

css如何动态累计数字?

导读:css如何动态累计数字?用于章节目录的序列数生成,用css的计数器实现起来比 js方式更简单! 伪元素 ::after ::before伪元素设置content 可以在元素的首部和尾部添加内容,我们要在元素的首部添加序列号&#xff0c…

Spring AI 介绍以及与 Spring Boot 项目整合

Spring AI 项目旨在简化使用 Spring Boot 开发包含人工智能功能的应用程序,提供抽象和支持多种模型提供商及矢量数据库提供商。 Spring AI 的功能特点 支持主流模型提供商:如 OpenAI、Microsoft、Amazon、Google 和 Huggingface 等。支持多种模型类型&a…

如何从magento1迁移到magento2

m2相较m1 变化可以说非常大,相当于从头到位都改写一遍,更现代化,更优雅。除了数据库表变化不是很大。 主要迁移的内容有: 1,主题 2,插件(自己开发的或者第三方插件) 3,数据库 主题 不能迁移到m…

STM32上实现spwm调制原理分析

在STM32微控制器上实现SPWM(正弦脉宽调制,Sinusoidal Pulse Width Modulation)调制的核心是利用高频载波(三角波)与低频基波(正弦波)作比较得出。 那么在STM32里三角波和正弦波分别是什么&…

java实现分类下拉树,点击时对应搜索---后端逻辑

一直想做分类下拉,然后选择后搜索的页面,正好做项目有了明确的需求,查找后发现el-tree的构件可满足需求,数据要求为:{ id:1, label:name, childer:[……] }形式的,于是乎,开搞! 一…

Golang | Leetcode Golang题解之第187题重复的DNA序列

题目&#xff1a; 题解&#xff1a; const L 10 var bin map[byte]int{A: 0, C: 1, G: 2, T: 3}func findRepeatedDnaSequences(s string) (ans []string) {n : len(s)if n < L {return}x : 0for _, ch : range s[:L-1] {x x<<2 | bin[byte(ch)]}cnt : map[int]in…

文件创建与查看

touch touch命令用于创建一个新的文件。 语法&#xff1a;touch Linux路径 其中路径可以是相对路径、绝对路径或者特殊路径符都可以。 改图展示了通过 touch test.txt 命令创建了一个 test.txt文件&#xff0c;其中深色的代表文件夹&#xff0c;白色的代表文件。 使用 ls -lh…

[MYSQL] 数据库基础

1.什么是数据库 从数据库的名字可以看出,它是用来操作(增删查改....)数据的,事实上也的确如此,通过数据库,我们可以更方便.更高效的来操作.管理数据 以文件形式存储数据的缺点 文件的安全问题文件不利于数据的查询和删除文件不利于存储海量数据操作文件并不方便 为了解决上述问…

汽车IVI中控开发入门及进阶(二十九):i.MX6

前言: i.MX 6双/6Quad处理器集成多媒体应用处理器,是不断增长的多媒体产品系列的一部分,提供高性能处理,并针对最低功耗进行了优化。 i.MX 6Dual/6Quad处理器采用先进的quad-ArmCortex-A9内核,运行速度高达800 MHz,包括2D和3D图形处理器、1080p视频处理和集成电源管理。…

深入分析 Android BroadcastReceiver (六)

文章目录 深入分析 Android BroadcastReceiver (六)1. 广播机制的高级优化策略1.1 使用 Sticky Broadcast&#xff08;粘性广播&#xff09;示例&#xff1a;粘性广播&#xff08;过时&#xff0c;不推荐&#xff09; 1.2 使用 LiveData 和 ViewModel 进行组件通信示例&#xf…