【大模型系列篇】硅基智能开源数字人模型HeyGem.ai,开启数字人时刻

硅基智能开源数字人模型HeyGem.ai, 1秒克隆生成4K视频, 支持离线多语言, 开源72小时狂揽1.3k星, 目前已经获得3.4k星。

硅基智能正式宣布在GitHub开源全球TOP级数字人模型,同时发布基于该模型的同名数字人工具硅基数字人克隆的本地安装包,这一举措标志着数字人技术进入秒级克隆、无限量使用、全离线推理生成的新时代。

与传统数字人训练需要数小时甚至数天的模式相比,硅基数字人克隆实现了极限压缩,仅需1秒视频或一张照片,即可完成数字人形象和声音的克隆,30秒内完成数字人克隆,60秒内合成4K超高清数字人视频,在复杂光影、侧脸、遮挡等场景下仍能保证100%口型匹配,输出多表情多肢体动作数字人视频。

该开源模型不仅极大缩短了数字人克隆训练及生产周期,大幅提升视频生产效率,同时在数字人画面口型精确性、表情演绎的自然度及整体视觉流畅度上均达到全球顶尖水平。

开源地址:https://github.com/GuijiAI/HeyGem.ai

在实际应用中,硅基数字人克隆支持无限时长的4K超高清数字人视频生成,能够通过语音或文字输入驱动,克隆后的数字人音色支持8种语言输出,为跨国企业、在线教育、影视制作、直播营销等多场景提供更高效、更低成本的解决方案。

无论是需要批量生产AI虚拟主播、打造个性化智能客服,还是用于品牌代言、广告营销,硅基数字人克隆都能以秒级的响应速度和行业领先的精度,满足不同场景对高质量数字人的需求。凭借顶级口型同步技术,在复杂光影、遮挡或侧面角度下依然能实现高度逼真的发音匹配,使得数字人视频的自然度进一步提升,接近真人表达效果。

硅基数字人克隆的开源不仅是技术能力的释放,更是推动数字人普及化、个性化发展的关键一步。当前市场上的数字人产品往往受制于高昂的训练成本、服务器依赖和使用限制,而硅基数字人克隆以开源、免费、无限量克隆、全离线可部署的特性,真正实现了人人可用、随时可用的数字人生产力工具。

开发者可以基于硅基数字人克隆的开源代码进行定制化开发,企业可以在本地搭建属于自己的AI内容生产体系,创作者可以用最简单的方式,快速生成高质量的AI驱动数字人视频内容。无论是技术研发、商业应用,还是个性化创作,硅基数字人克隆的推出都将大幅降低进入门槛,加速数字人技术的普及和应用落地。

我们之前体验过阿里的EchoMimicV2 《AI半身数字人开箱体验——开源项目EchoMimicV2》和 腾讯的 MuseTalk 《数字人音唇同步模型——腾讯开源MuseTalk》,今天我们来看看HeyGem的效果。

基本介绍

Heygem是一款专为Windows系统设计的全离线视频合成工具,它能够精确克隆您的外貌和声音,让您的形象数字化。您可以通过文字和语音驱动虚拟形象,进行视频制作。无需联网,保护隐私的同时,也能享受到便捷和高效的数字体验。

  • 核心功能

    • 精确外貌与声音克隆:运用先进的 AI 算法,高精度捕捉真人外貌特征,包括五官形状、面部轮廓等,构建逼真虚拟模型。同时,能精准克隆声音,捕捉并还原人声的细微特征,支持多种声音参数设置,可创造与原声高度相似的克隆效果。
    • 文字和语音驱动虚拟形象:通过自然语言处理技术理解文本内容,将文字转换为自然流畅的语音,实现文字驱动虚拟形象。也可直接使用语音输入,让虚拟形象根据语音的节奏、语调等进行相应的动作和表情变化,使虚拟形象的表现更加自然、生动。
    • 高效视频合成:将数字人的视频画面与声音高度同步,实现自然流畅的口型匹配,智能优化音视频同步效果。
    • 多语言:脚本支持八种语言,英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
  • 显著优势

    • 全离线操作:无需联网即可使用,有效保护用户隐私,让用户在安全、独立的环境中进行创作,避免数据在网络传输过程中可能存在的泄露风险。
    • 简单易用:操作界面简洁直观,即使是没有任何技术背景的小白也能轻松上手,快速掌握软件的使用方法,轻松开启数字人创作之旅。
    • 多模型支持:支持导入多个模型,并通过一键启动包进行管理,方便用户根据不同的创作需求和应用场景选择合适的模型。
  • 技术支持

    • 声音克隆技术:利用人工智能等先进技术,根据给定的声音样本生成与之相似或相同声音的技术,涵盖语音中的语境、语调、语速等。
    • 自动语音识别:一种能将人类语音中的词汇内容转换为计算机可读输入,也就是转换为文本格式的技术,让计算机能够 “听懂” 人们说的话。
    • 计算机视觉技术:用于视频合成中的视觉处理,包括面部识别、口型分析等,确保虚拟形象的口型与声音和文字内容相匹配。

主要功能

  • 秒级克隆:仅需1秒视频或1张照片,完成数字人形象和声音的克隆,30秒内完成克隆,60秒内合成4K超高清数字人视频。
  • 高效推理:推理速度达到1:0.5,视频渲染合成速度达到1:2。
  • 高质量输出:支持4K超高清、32帧/秒的视频输出,超越好莱坞电影24帧的标准。
  • 多语言支持:克隆后的数字人支持8种语言输出,满足全球市场需求。
  • 无限量克隆:支持无限量克隆数字人形象和声音,无限量合成视频。
  • 100%口型匹配:在复杂光影、遮挡或侧面角度下,实现高度逼真的口型匹配。
  • 低配可跑:支持Docker一键部署,最低只需NVIDIA 1080Ti显卡即可运行。

依赖项

  1. Nodejs 18 及以上版本
  2. Docker镜像
docker pull guiji2025/fun-asr
docker pull guiji2025/fish-speech-ziming
docker pull guiji2025/heygem.ai
  • ASR based on fun-asr
  • TTS based on fish-speech-ziming

硬件推荐

  • CPU:第13代英特尔酷睿i5-13400F。
  • 内存:32GB。
  • 显卡:RTX 4070。
  • 存储空间
    • 空间1:用在存储服务镜像文件,需要100GB以上空间。
    • 空间2:用在存储数字人和项目数据,需要30GB以上空间。

安装服务端

采用Docker方式安装,docker-compose如下:

  1. docker-compose.yml文件在/deploy目录下。

  2. /deploy目录执行docker-compose up -d

  3. 耐心等待一段时间(半小时左右,速度取决于网速),下载会消耗70G左右流量,注意连WIFI

  4. 看到Dokcer 中出现三个服务,表示成功了

启动完成服务后,显存占用近8个GB。 

安装客户端

客户端可以自己进行编译,运行npm run build:win生成安装程序 HeyGem-1.0.0-setup.exe。也可以直接下载官方构建的安装包,双击安装程序进行安装即可。

自定义客户端

因为官方只提供了Window版本的安装包,这里我们基于Gradio开发了简洁的用户界面,封装服务端的HeyGem能力来体验。

模特训练

1. 将视频分离为静音视频 + 音频

接下来静音视频会用于数字人视频合成,音频会用于声音克隆。

声音克隆

1. 音频放到D:\heygem_data\voice\data

D:\heygem_data\voice\data是与guiji2025/fish-speech-ziming服务约定的,可以在docker-compose中修改

2. 调用 http://127.0.0.1:18180/v1/preprocess_and_tran接口

参数示例:

{"format": "wav", "reference_audio": "xxxxxx/xxxxx.wav", "lang": "zh"}

返回示例

{"asr_format_audio_url": "xxxx/x/xxx/xxx.wav", "reference_audio_text": "xxxxxxxxxxxx"}

记录下返回结果后续音频合成需要用到,该步骤会截取20s音频,并提取文本信息

音频合成

  • 接口:http://127.0.0.1:18180/v1/invoke
// 请求参数
{"speaker": "{uuid}", // 一个UUID保持唯一即可"text": "xxxxxxxxxx", // 需要合成的文本内容"format": "wav", // 固定传参"topP": 0.7, // 固定传参"max_new_tokens": 1024, // 固定传参"chunk_length": 100, // 固定传参"repetition_penalty": 1.2, // 固定传"temperature": 0.7, // 固定传参"need_asr": false, // 固定传参"streaming": false, // 固定传参"is_fixed_seed": 0, // 固定传参"is_norm": 0, // 固定传参"reference_audio": "{voice.asr_format_audio_url}", // 上一步“模特训练”的返回值"reference_text": "{voice.reference_audio_text}" // 上一步“模特训练”的返回值
}

视频合成

  • 合成接口:http://127.0.0.1:8383/easy/submit
// 请求参数
{"audio_url": "{audioPath}", // 音频路径"video_url": "{videoPath}", // 音频路径"code": "{uuid}", // 唯一key"chaofen": 0, // 固定值"watermark_switch": 0, // 固定值"pn": 1 // 固定值
}
  • 进度查询:http://127.0.0.1:8383/easy/query?code=${taskCode}

get 请求,参数taskCode是上面合成接口的返回值 

返回示例:

{"code": 10000,"data": {"code": "19d23e71-f32d-4f10-a8d4-abdd15a79548","msg": "音频特征提取完成","progress": 20,"result": "","status": 1},"msg": "","success": true
} 
{"code": 10000,"data": {"code": "19d23e71-f32d-4f10-a8d4-abdd15a79548","msg": "任务完成","progress": 100,"result": "/19d23e71-f32d-4f10-a8d4-abdd15a79548-r.mp4","status": 2},"msg": "","success": true
} 

界面展示

效果展示

Gradio自定义硅基智能HeyGem.ai客户端,本地玩转数字人。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37073.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C++】STL库面试常问点

STL库 什么是STL库 C标准模板库(Standard Template Libiary)基于泛型编程(模板),实现常见的数据结构和算法,提升代码的复用性和效率。 STL库有哪些组件 STL库由以下组件构成: ● 容器&#xf…

knowledge-微前端(多个前端应用聚合的一个应用架构体系,每个小的应用可独立运行,独立开发,独立部署上线)

1.前言 微前端,将一个大的前端应用拆分为多个小型的,独立开发的前端应用,每一个小型的应用都可以单独的开发,部署和运行。这种结构允许不同的团队使用不同的技术栈来开发应用的不同部分,提高开发的效率与灵活性。 2.实…

三格电子PLC数据采集网关-工业互联的智能枢纽

在工业自动化领域,设备间的数据互通与协议兼容是核心挑战之一。三格电子推出的PLC据采集网关SG-PLC-Private,凭借其多协议兼容、高稳定性和灵活配置能力,成为工业物联网(IIoT)中实现设备互联的关键设备。本文将从产品功…

鸿蒙NEXT项目实战-百得知识库05

代码仓地址,大家记得点个star IbestKnowTeach: 百得知识库基于鸿蒙NEXT稳定版实现的一款企业级开发项目案例。 本案例涉及到多个鸿蒙相关技术知识点: 1、布局 2、配置文件 3、组件的封装和使用 4、路由的使用 5、请求响应拦截器的封装 6、位置服务 7、三…

leetcode热题100道——字母异位词分组

给你一个字符串数组,请你将 字母异位词 组合在一起。可以按任意顺序返回结果列表。 字母异位词 是由重新排列源单词的所有字母得到的一个新单词。 示例 1: 输入: strs ["eat", "tea", "tan", "ate", "nat", &…

【Vue3】01-vue3的基础 + ref reactive

首先确保已经有了ES6的基础 本文介绍 vue 的基础使用以及 两种响应数据的方式。 目录 1. 创建一个vue应用程序 2. Vue模块化开发 3. ref 和 reactive 的区别 1. 创建一个vue应用程序 所需的两个文件: https://unpkg.com/vue3/dist/vue.global.js https://un…

Linux中的selinux,磁盘管理

一、selinux 作用:通过对软件进程限制某些权限,从而保证系统的安全。通过上下文类型和设定好的上下文类型是否一致。如果一致,那么软件就可以完成后续的操作,例如访问文件中数据,或者让数据通过某个端口。做好个人防护…

Linux应用:Linux的信号

什么是信号 信号是一种软件中断,用于通知进程系统中发生了某种特定事件。它是操作系统与进程之间,以及进程与进程之间进行异步通信的一种方式。在 Linux 系统中,信号是一种比较简单的进程间通信机制。当一个信号产生时,内核会通过…

Linux笔记之Ubuntu22.04安装IBus中文输入法教程

Linux笔记之Ubuntu22.04安装IBus中文输入法教程 code review! 文章目录 Linux笔记之Ubuntu22.04安装IBus中文输入法教程安装 IBus 并配置中文输入法步骤 1: 安装 IBus 和拼音插件步骤 2: 设置 IBus 为默认输入法框架步骤 3: 重启会话步骤 4: 添加中文输入法步骤 5: …

【AIGC前沿】MiniMax海螺AI视频——图片/文本生成高质量视频

目录 1.MiniMax海螺AI视频简介 2.使用教程 1.MiniMax海螺AI视频简介 海螺视频,作为 MiniMax 旗下海螺 AI 平台精心打造的 AI 视频生成工具,致力于助力用户产出高品质视频内容。该工具依托 abab-video-1 模型,具备强大的文生视频功能。用户…

Kubeasz工具快速部署K8Sv1.27版本集群(二进制方式)

文章目录 一、基本信息二、服务器初始化操作三、使用Kubeasz部署K8S集群四、验证集群 一、基本信息 1、部署需要满足前提条件: 注意1:确保各节点时区设置一致、时间同步;注意2:确保在干净的系统上开始安装;注意3&…

在VMware上部署【Ubuntu】

镜像下载 国内各镜像站点均可下载Ubuntu镜像,下面例举清华网站 清华镜像站点:清华大学开源软件镜像站 | Tsinghua Open Source Mirror 具体下载步骤如下: 创建虚拟机 准备:在其他空间大的盘中创建存储虚拟机的目录&#xff0c…

2025年Postman的五大替代工具

虽然Postman是一个广泛使用的API测试工具,但许多用户在使用过程中会遇到各种限制和不便。因此,可能需要探索替代解决方案。本文介绍了10款强大的替代工具,它们能够有效替代Postman,成为你API测试工具箱的一部分。 什么是Postman&…

wow-rag—task5:流式部署

我们希望做一个流式输出的后端,然后让前端去捕获这个流式输出,并且在聊天界面中流式输出。 首先构造流式输出引擎。 # 构造流式输出引擎 query_engine index.as_query_engine(streamingTrue, similarity_top_k3,llmllm)然后生成response_stream&#x…

投资日记_道氏理论技术分析

主要用于我自己参考,我感觉我做事情的时候容易上头,忘掉很多事情。 技术分析有很多方法,但是我个人相信并实践的还是以道氏理论为根本的方法。方法千千万万只有适合自己价值观,习惯,情绪,性格的方法才是好的…

LangChain4j入门指南:Java开发者的AI应用新起点

什么是LangChain和LangChain4j? LangChain是⼀个⼤模型的开发框架,使⽤ LangChain 框架,程序员可以更好的利⽤⼤模型的能⼒,⼤⼤提⾼编 程效率。如果你是⼀个 Java 程序员,那么对 LangChain 最简单直观的理解就是&…

【实测闭坑】LazyGraphRAG利用本地ollama提供Embedding model服务和火山引擎的deepseek API构建本地知识库

LazyGraphRAG 2024年4月,为解决传统RAG在全局性的查询总结任务上表现不佳,微软多部门联合提出Project GraphRAG(大模型驱动的KG);2024年7月,微软正式开源GraphRAG项目,引起极大关注&#xff0c…

压力测试实战指南:JMeter 5.x深度解析与QPS/TPS性能优化

一、压力测试基础概念 1.1 什么是压力测试? 定义:模拟极端负载场景验证系统性能极限 目的:发现性能瓶颈、评估系统可靠性、验证容错能力 常见类型:负载测试、压力测试、稳定性测试、峰值测试 1.2 核心性能指标解析 1.2.1 QP…

嵌入式4-Modbus

1.Modbus Modbus 是一种广泛应用于工业自动化领域的通信协议,用于在不同设备(如传感器、PLC、变频器、仪表等)之间交换数据。它支持串行通信(如 RS232、RS485)和以太网通信(Modbus TCP)&#x…

机器学习-手搓KNN算法

一、简介 K最近邻(K-Nearest Neighbors, KNN)​ 是一种简单且直观的监督学习算法,适用于分类和回归任务。其核心思想是:​相似的数据点在特征空间中彼此接近。KNN通过计算新样本与训练数据中各个样本的距离,找到最近的…