Fay控制器及数字人模型,可灵活组合出不同的应用场景:虚拟主播、现场推销货、商品导购、语音助理、远程语音助理、数字人互动、数字人面试官及心理测评、贾维斯、Her

FAY

数 字 人 Fay 控 制 器(这是元宇宙吗?)

Fay是一个完整的开源项目,包含Fay控制器及数字人模型,可灵活组合出不同的应用场景:虚拟主播、现场推销货、商品导购、语音助理、远程语音助理、数字人互动、数字人面试官及心理测评、贾维斯、Her。开发人员可以利用该项目简单地构建各种类型的数字人或数字助理。该项目各模块之间耦合度非常低,包括声音来源、语音识别、情绪分析、NLP处理、情绪语音合成、语音输出和表情动作输出等模块。每个模块都可以轻松地更换。

推荐集成的开源仓库

消费级pc大模型:https://github.com/THUDM/ChatGLM-6B

全平台抖音抓包:https://github.com/wwengg/douyin

UE5工程:https://github.com/xszyou/fay-ue5

实时照片驱动集成:https://github.com/waityousea/xuniren

一、Fay控制器用途

远程语音助理 PC demo

远程语音助理 android demo

与数字形象通讯(非必须,控制器需要关闭“面板播放”)

控制器与采用 WebSocket 方式与 UE 通讯

下载工程: https://pan.baidu.com/s/1RBo2Pie6A5yTrCf1cn_Tuw?pwd=ck99

下载windows运行包: https://pan.baidu.com/s/1CsJ647uV5rS2NjQH3QT0Iw?pwd=s9s8

工程及运行包:https://github.com/xszyou/fay-ue5

发您的Fay运行效果视频至公众号领取最新的UE5模型哦

通讯地址: ws://127.0.0.1:10002(已接通)

消息格式: 查看 WebSocket.md

与远程音频输入输出设备连接(非必须,外网需要配置http://ngrok.cc tcp通道的clientid)

控制器与采用 socket(非websocket) 方式与 音频输出设备通讯

内网通讯地址: ws://127.0.0.1:10001

外网通讯地址: 通过http://ngrok.cc获取(有伙伴愿意赞助服务器给社区免费使用吗?)

 消息格式: 参考 remote_audio.py

二、Fay控制器核心逻辑

注:

1、去API及会话管理功能将在下一版本发布;

2、以上每个模块可轻易替换成自家核心产品。

3、本地nlp(rasa+chatglm)的替换方法(https://m.bilibili.com/video/BV1D14y1f7pr?wxfid=o7omF0Vs6RIQFUGAzB6LXOBHa6Yg): 1、安装启动chatglm(github) 2、安装rasa 包:rasa、rasa-sdk 3、进入test/rasa目录启动actions:rasa run actions 4、启动rasa api server:rasa run --enable-api -p 5006 5、fay_core.py 引入nlp_rasa.py

目录结构

.
├── main.py					# 程序主入口
├── fay_booter.py			# 核心启动模块
├── config.json				# 控制器配置文件
├── system.conf				# 系统配置文件
├── ai_module
│   ├── ali_nls.py			# 阿里云 实时语音
│   ├── ms_tts_sdk.py       # 微软 文本转语音
│   ├── xf_aiui.py          # 讯飞 人机交互-自然语言处理
│   ├── chatgpt.py          # gpt3.5对接
│   ├── yuan_1_0.py          # 浪潮.源大模型对接
│   └── xf_ltp.py           # 讯飞 性感分析
├── bin                     # 可执行文件目录
├── core                    # 数字人核心
│   ├── fay_core.py         # 数字人核心模块
│   ├── recorder.py         # 录音器
│   ├── tts_voice.py        # 语音生源枚举
│   ├── viewer.py           # 抖音直播间接入模块
│   └── wsa_server.py       # WebSocket 服务端
├── gui                     # 图形界面
│   ├── flask_server.py     # Flask 服务端
│   ├── static
│   ├── templates
│   └── window.py           # 窗口模块
├── scheduler
│   └── thread_manager.py   # 调度管理器
└── utils                   # 工具模块├── config_util.py      ├── storer.py└── util.py

三、升级日志

2023.04:

  • 抖音直播互动数据对接更换成系统代理抓包pd解码的方式(运行直播伴侣即可);
  • 提供本地nlp的对接代码(rasa+chatglm);
  • 修复若干逻辑及说明错误;
  • 提高抖音字幕监听的稳定性及包兼容性;
  • 更新gpt接口:局部接入代理、prompt上补充角色模拟及简化回复内容(感谢 江湖墨明);
  • 修复控制台输入测试消息的bug;
  • 补充推荐两个优秀仓库:chatglm、全平台的抖音抓包。

2023.03:

  • 增加edge-tts语音合成(免费)可替换azure-tts(支持情绪化语音);
  • 替换flask发行版运行方式;
  • web socket接口增加数字人文字内容同步,以便数人字可以远程运行;
  • 优化数字人数据web socket同步逻辑;
  • 更改gpt 3.5对接方式。

2023.02:

  • 提供chatgpt及yuan1.0作为选择。

2023.01:

  • 控制器pc内网穿透,音频输入输出设备远程直连;
  • 提供android 音频输入输出工程示例代码;
  • 提供python音频输入输出工程示例代码(远程PC、树莓派等可用);
  • 补传1.0语音指令音乐播放模块(暂不支持远程播放);
  • 重构及补充若干工具模块:websocket、多线程、缓冲器、音频流录制器等;
  • 修复1.x版本的多个bug;
  • 集成看板娘;

2022.12:

  • 上传bin目录(用于直播互动);

2022.11:

  • 更新抖音直播获取粉丝互动数据的xpath;

2022.10.27:

  • 更新mac上的麦克风参数;
  • 解决mac上无法重启问题;
  • 上传brew安装脚本。

2022.10.17:

  • 更新语音指令;
  • 补充人设语法;

四、安装说明

环境

  • Python 3.8.0 +
  • Chrome 浏览器 (若不开启直播功能,可跳过)

安装依赖

pip install -r requirements.txt

配置应用密钥

  • 查看 AI 模块
  • 浏览链接,注册并创建应用,将应用密钥填入 ./system.conf 中

启动

启动Fay控制器

python main.py

AI 模块

启动前需填入应用密钥

代码模块描述链接
./ai_module/ali_nls.py阿里云 实时语音识别https://ai.aliyun.com/nls/trans
./ai_module/ms_tts_sdk.py微软 文本转情绪语音(可选)https://azure.microsoft.com/zh-cn/services/cognitive-services/text-to-speech/
./ai_module/xf_ltp.py讯飞 情感分析https://www.xfyun.cn/service/emotion-analysis
./utils/ngrok_util.pyngrok.cc 外网穿透(可选)http://ngrok.cc
./ai_module/yuan_1_0.py浪潮源大模型(NLP 3选1)https://air.inspur.com/
./ai_module/chatgpt.pyChatGPT(NLP 3选1)*******
./ai_module/xf_aiui.py讯飞自然语言处理(NLP 3选1)https://aiui.xfyun.cn/solution/webapi

五、使用说明

使用说明

  • 抖音虚拟主播:启动bin/Release_2.85/2.85.exe + fay控制器(抖音输入源开启、展板播放关闭)+ 数字人 + 抖音伴侣(测试时直接通过浏览器打开别人的直播间);
  • 现场推销货:fay控制器(展板播放关闭、填写商品信息)+ 数字人;
  • 商品导购:fay控制器(麦克风输入源开启、展板播放关闭、填写商品信息、填写商品Q&A)+ 数字人;
  • 语音助理:fay控制器(麦克风输入源开启、展板播放开启);
  • 远程语音助理:fay控制器(展板播放关闭)+ 远程设备接入;
  • 数字人互动:fay控制器(麦克风输入源开启、展板播放关闭、填写性格Q&A)+ 数字人;
  • 数字人面试官及心理测评:联系免费领取;
  • 贾维斯、Her:加入我们一起完成。

语音指令

  • 关闭核心 关闭 再见 你走吧
  • 静音 静音 闭嘴 我想静静
  • 取消静音 取消静音 你在哪呢? 你可以说话了
  • 播放歌曲(网易音乐库不可用,寻找替代中) 播放歌曲 播放音乐 唱首歌 放首歌 听音乐 你会唱歌吗?
  • 暂停播放 暂停播放 别唱了 我不想听了

图形界面

人设

数字人属性,与用户交互中能做出相应的响应。

交互灵敏度

在交互中,数字人能感受用户的情感,并作出反应。最直的体现,就是语气的变化,如 开心/伤心/生气 等。 设置灵敏度,可改变用户情感对于数字人的影响程度。

接收来源

抖音

填入直播间地址,实现与直播间粉丝交互

麦克风

选择麦克风设备,实现面对面交互,成为你的伙伴

socket远程音频输入

可以接入远程音频输入,远程音频输出

商品栏

填入商品介绍,数字人将自动讲解商品。

当用户对商品有疑问时,数字人可自动跳转至对应商品并解答问题。

配合抖音接收来源,实现直播间自动带货。

 源码地址

fay: Fay是一个完整的开源项目,包含Fay控制器及数字人模型,可灵活组合出不同的应用场景:虚拟主播、现场推销货、商品导购、语音助理、远程语音助理、数字人互动、数字人面试官及心理测评、贾维斯、Her。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/42799.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

虚拟数字人制作应用场景持续拓宽,3D数字人满足了用户全新需求

12月12日晚,由快手StreamLake助力蒙牛打造的3D写实虚拟人“奶思”,通过“蒙牛牛奶旗舰店”快手账号带来直播首秀。本场直播吸引近300万人观看,相较于该账号过去30天内的均值表现,互动量提升明显,直播间点赞数和评论数分…

虚拟形象动作捕捉+虚拟数字人制作技术,推动虚拟偶像代言人热潮

前不久,速途网速途元宇宙研究院《2022虚拟人产业研究报告》显示,虚拟偶像仍然是当下主流,一方面得益于较为成熟的技术能力,即虚拟数字人采用的建模与动作捕捉技术;另一方面得益于虚拟偶像鲜明的外观及人设,…

虚拟数字人几近真人?“造假”过程大公开

近来虚拟人呈现井喷式发展,银行、媒体、美妆等不同行业纷纷推出自己的虚拟人,一时之间AYAYI、Ling、柳夜熙等各式各样风格鲜明的虚拟人类走进了大众视野。那么到底什么是虚拟数字人?根据中国人工智能产业发展联盟发布的《2020年虚拟数字人发展…

虚拟数字人有哪些应用场景和用途?

近几年,元宇宙概念下的重要资产“虚拟数字人”崛起,作为未来人类进入元宇宙的媒介,虚拟数字人随着理论与技术的革新,应用范围正在不断扩大。那么虚拟数字人都有哪些应用场景和用途呢? 一、教育 虚拟数字人可以辅助老师…

怎么利用AI虚拟数字人创业,都有哪些AI数字虚拟人项目可操作。

随着数字化的快速发展,数字人成为了越来越受欢迎的创业领域。数字人是指由人工智能技术和人工智能算法构建而成的虚拟人物,可以模拟人类的语言、思维和情感等能力。数字人的出现给我们带来了创新的商业模式和巨大的商业机会。那么,如何利用数…

想知道同声翻译在线翻译怎么操作吗?很简单,只需4步

你知道同声翻译在线翻译怎么操作吗?随着全球化的不断发展,越来越多的人需要与来自不同国家的人交流。为了实现跨语言的沟通,同声翻译技术越来越受到欢迎。 下面将介绍4款支持同声翻译在线翻译功能的软件,希望可以帮助到大家。 方法…

如何进行同声翻译?这些同声翻译在线翻译方法大家都在用

在座的各位以后有没有出国求学或者旅游的计划呀,像我英语不太好,话到嘴边常常不知道怎么表达,在国内路上遇到热情的外国人也只会一句“How are you”外加肢体语言连比带画的,但是坚定想要出国的小伙伴们也不要担心自己语言不通&am…

手机同声传译软件有哪些?推荐四款软件实时翻译软件

小伙伴们有时候会在街上或者旅游景点遇到外国人吗?他们有可能向我们问路、问好玩的地方、问美食推荐等等,但如果我们因为外语水平不好,而导致语言不通,很难跟他们进行交流,这个时候应该怎么办呢?其实可以借…

同声传译在线软件有什么?推荐这些实时翻译软件给你

当在街上遇到问路的外国友人或者想要去国外游玩的时候,我们就可以借助同声传译软件将说的话进行实时翻译,流利的解答外国友人问的问题以及不用担心去国外会语音不通了。 那么小伙伴们知道同声传译在线软件有什么吗?不知道的话,可…

【经验分享】PC端免费高效的同声翻译

2022.09.26 谷歌翻译退出中国市场 translate.googleapis.com 与 谷歌翻译web translate.google.cn现在无法用了 最新解决方法见 https://blog.csdn.net/sinat_24092079/article/details/127133879 疫情期间上网课,对于英语听力较差或者需要观看英文视频&#xff0c…

这3个好用的同声传译app,让你知道有什么同声传译软件推荐

随着社会生活质量的提升,跨文化交流越来越频繁,现在市面上有许多功能丰富、操作简单、翻译准确的同声传译软件,只要使用其中的“同声传译”,就可以实现跨语种和外国人进行沟通了。那么有什么同声传译app推荐呢?今天我就…

图像风格快速迁移tensorflow实战

引言 需要解决的问题是:利用tensorflow的快速风格迁移功能,把一张qq的logo图片转换成《星空》油画的风格,并打印输出。 如图所示,最右边图像是输入结果,左边两图是输入: 一、操作步骤 通过两天的学习&am…

使用PyTorch搭建VGG模型进行图像风格迁移实战(附源码和数据集)

需要源码和图片集请点赞关注收藏后评论区留言或者私信~~~ 一、VGG模型 VGG模型是科学家们提出的图像分类模型,这一模型采用了简单粗暴的堆砌33卷积层的方式构建模型,并花费大量的时间逐层训练,最终在ImageNet图像分类比赛中获得了亚军&#…

Pytorch 使用GAN实现二次元人物头像生成 保姆级教程(数据集+实现代码+数学原理)

Pytorch 使用DCGAN实现二次元人物头像生成(实现代码公式推导) GAN介绍 算法主体 推导证明(之后将补全完整过程) 随机梯度下降训练D,G DCGAN介绍及相关原理 Pytorch实现二次元人物头像生成 如何使用GAN生成二次元头像 数据准备 代码实现 判别、生成模型…

GAN动漫人像生成实现(附带源码)

基于生成对抗网络的人像转卡通像实现 写在前面先来看看效果吧大家最想要的项目原理简介(2021/11/16更)本项目C和Pytorch的OnnxRuntime使用方法(2022/1/3更)APP的代码(2022/4/4更)双城之战风格迁移数据集写在后面 写在前面 天气晴朗万物可爱,希望通过这篇文章对大家…

NVIDIA的StyleGAN、StyleGAN2、StyleGAN3系列论文解读,梳理基于风格的生成器架构

通俗来讲就是,张三造假币(Generator生成器),然后用验钞机去验证真假(Discriminator辨别器),如果是假的就继续提高造假技术,直到验钞机检验不出来为止,也就是说一个造假一个验假(验钞机也需升级),两者互相学…

AI绘画突然爆火?快速体验二次元画师NovelAI(diffusion)

目录 0 写在前面1 diffusion vs GAN2 NovelAI3 AI绘画环境搭建4 体验AI创作 0 写在前面 机器学习强基计划聚焦深度和广度,加深对机器学习模型的理解与应用。“深”在详细推导算法模型背后的数学原理;“广”在分析多个机器学习模型:决策树、支…

女神青涩时纤毫毕现,腾讯 AI 模型 GFPGAN 火上 GitHub 热榜第一,Demo 在线可玩

来源:量子位 作者:明敏 包浆老图立刻清晰到头发丝是一种怎样的体验?看这明亮的眼眸、清晰的发丝,原本模糊的人像立刻添了几分灵动(这就是用 AI 修复的高圆圆童年照)。 甚至时间更久远的历史名人照片也能搞…

游戏原画师

常用软件: 1. Photoshop著名的图形处理软件,也能绘画,适合绘画功底一般的初学者。 2. Painter很多专业人士都很爱用的一款软件。笔刷很多,适合有一定美术功底的人。 3. Sai画漫画的话,sai就比较好用了,对…

chatgpt赋能python:Python与前端连接:使用Python的Web框架构建后端API

Python与前端连接:使用Python的Web框架构建后端API Python是一种强大的编程语言,越来越受到开发者的欢迎。但是,对于Web开发,Python并不是一种前端语言。那么,如何将Python的后端与前端连接起来?本文将介绍…