Kyutai 推出了 Moshi Chat,这是一种既可以实时收听又可以说话的 AI

Kyutai 是一家专注于开放式 AI 研究的非营利性实验室,它推出了开源的 Moshi Chat 项目

Kyutai 是一家致力于推进人工智能 (AI) 开放研究的非营利性实验室,其最新创新 Moshi Chat 取得了重大进展。这种尖端的实时原生多模态基础模型代表了人工智能技术的卓越成就。Kyutai 推出的 Moshi Chat 因其令人印象深刻的功能而受到关注,尤其是在同时听和说的领域。与传统的 AI 模型不同,Moshi Chat 旨在理解和表达情感,使与它的交互更加自然和引人入胜。

凭借其独特的功能和开源可用性,Moshi Chat 成为 AI 开发的先驱。

Moshi Chat 的发展证明了 Kyutai 对透明度和协作创新的承诺。该模型能够同时处理两个音频流(实时收听和说话),这使其有别于其他 AI 模型。

这种能力的基础是文本和音频数据组合的强大联合预训练过程,利用来自 Helium 的合成文本数据,Helium 是 Kyutai 开发的 70 亿参数语言模型。人工智能技术的这种进步是严谨研究和微调的结果,旨在实现无缝和高效的性能。

Kyutai Moshi Chat的技术

Moshi Chat 的突出特点是其实时交互功能,使其能够同时收听和响应。这是通过对文本和音频数据的混合进行联合预训练来实现的,确保模型能够保持文本和听觉信息的流畅流动。Moshi Chat 语音处理能力的基础是 Helium 模型,这是一个拥有 70 亿参数的语言模型,是这项创新技术的支柱。

根据 Kyutai Moshi Chat 在 YouTube 上的主题演讲,Moshi Chat 的微调过程涉及 100,000 个“口头式”合成对话的广泛数据集。这些对话使用类似于 Murf AI 的文本转语音 (TTS) 技术进行转换,使模型能够非常准确地生成和理解语音。TTS 引擎支持 70 种不同的情感和风格,使用由授权配音员录制的 20 小时音频进行微调。这种一丝不苟的培训方法造就了一个模型,它不仅能理解口语,还能传达情感和细微差别,使互动更加自然和引人入胜。

Kyutai 对负责任地使用 AI 的承诺体现在他们加入水印来检测 AI 生成的音频中。此功能仍在进行中,强调了 AI 开发中道德考虑的重要性。此外,将 Moshi Chat 作为开源项目发布的决定凸显了 Kyutai 致力于在 AI 社区内营造协作环境的奉献精神。

在这里插入图片描述

Moshi AI的训练和微调过程

Moshi Chat 的开发涉及严格的培训和微调过程,以确保其高水平的性能。该模型使用 Helium 7B 基础文本语言模型从头开始训练,然后与文本和音频编解码器联合训练。

语音编解码器基于 Kyutai 的内部 Mimi 模型,拥有 300 倍的压缩系数,这有助于在保持音频质量的同时减小数据大小。

Moshi Chat 的微调过程涉及用情感和风格注释 100,000 份高度详细的成绩单。这些注释使模型能够理解和传达各种情感,使与模型的交互更加逼真和引人入胜。文本转语音引擎支持 70 种不同的情感和风格,使用由一位名叫 Alice 的持牌配音员录制的 20 小时音频进行了微调

Kyutai 对适应性的关注体现在 Moshi Chat 能够用不到 30 分钟的音频进行微调的能力上。此功能允许用户自定义模型以满足特定需求,无论是用于研究、语言学习还是其他应用程序。该模型的部署展示了其效率和多功能性,可在 24 GB VRAM 下处理两种批处理大小,并支持多个后端。推理代码的优化,如增强的 KV 缓存和提示缓存,预计将进一步提高 Moshi Chat 的性能。

在这里插入图片描述

Kyutai Labs 为所有人提供的技术

Moshi Chat 不仅是一个技术奇迹,而且非常容易访问。Kyutai 开发了该型号的较小变体,可以在 MacBook 或消费级 GPU 上运行,使其可供更广泛的用户使用。

该模型的效率进一步体现在部署在 Scaleway 和 Hugging Face 等平台上,它在 24 GB VRAM 上处理两种批量大小,支持各种后端,包括 CUDA、Metal 和 CPU。

该模型的语音基于单独的 TTS 模型生成的合成数据进行训练,实现了令人印象深刻的 200 毫秒的端到端延迟。这种低延迟对于实时交互至关重要,使 Moshi Chat 能够几乎即时响应用户输入。使用 Rust 开发的高级训练技术和优化的推理代码相结合,有助于提高模型的卓越性能。增强的 KV 缓存和提示缓存也有望进一步提高模型的效率。

Yann LeCun 发布的演示展示了这种新 AI 模型的运行情况。

来自 https://t.co/TngVXgSjzX https://t.co/qftjudOq1k 的 Moshi 的现场演示— Yann LeCun (@ylecun) July 3, 2024

展望未来,Kyutai 对 Moshi Chat 有雄心勃勃的计划。该团队打算发布一份全面的技术报告和开放模型版本,包括推理代码库、7B 模型、音频编解码器和完全优化的堆栈。Moshi Chat 的未来迭代(例如 1.1、1.2 和 2.0 版本)将纳入用户反馈,以完善和增强模型的功能。

Kyutai 的宽松许可旨在鼓励广泛采用和创新,确保不同的受众都能获得 Moshi Chat 的好处。

如何使用 Moshi Chat

用户可以并且被鼓励通过Kyutai网站在线试用Moshi Chat。到达那里后:

  1. 输入您的电子邮件
  2. 点击“加入队列”
  3. 开始说话

无论是讨论日常话题还是探索更复杂的话题,用户都可以自然地与 Moshi Chat 互动,受益于其先进的语音识别和合成功能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/371279.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

加密(3)非对称加密

一、介绍 1、概念 非对称加密,又称现代加密算法,非对称加密是计算机通信安全的基石,保证了加密数据不会被破解。加密和解密使用的是两个不同的密钥,这种算法叫作非对称加密算法。 2、示例 首先生成密钥对, 公钥为(5,14)&#…

【图解大数据技术】Flume、Kafka、Sqoop

【图解大数据技术】Flume、Kafka、Sqoop FlumeFlume简介Flume的应用场景 KafkaKafka简介Kafka架构Flume与Kafka集成 SqoopSqoop简介Sqoop原理sqoop搭配任务调度器实现定时数据同步 Flume Flume简介 Flume是一个数据采集工具,多用于大数据技术架构下的日志采集。 …

【C++】#1

关键字&#xff1a; 基本框架、多个main执行、快捷键、cout规则 基本框架&#xff1a; #include <iostream> using namespace std;int main() {//具体内容return 0; } 多个main函数可执行&#xff1a; 常用快捷键&#xff1a; cout规则&#xff1a;

使用 Git Hooks 防止敏感信息泄露

欢迎关注公众号&#xff1a;冬瓜白 在日常开发中&#xff0c;我们可能会不小心将敏感信息提交到 Git。为了防止这种情况&#xff0c;可以利用 Git Hooks 编写一个简单的脚本&#xff0c;当发现提交中包含敏感词时&#xff0c;给出提示。 以下是一个基于 pre-commit 钩子的示例…

Stream流真的很好,但答应我别用toMap()

你可能会想&#xff0c;toList 和 toSet 都这么便捷顺手了&#xff0c;当又怎么能少得了 toMap() 呢。 答应我&#xff0c;一定打消你的这个想法&#xff0c;否则这将成为你噩梦的开端。 让我们先准备一个用户实体类。 Data AllArgsConstructor public class User { priv…

算法-常见数据结构设计

文章目录 1. 带有setAll功能的哈希表2. LRU缓存结构3. O(1)时间插入删除随机(去重)4. O(1)时间插入删除随机(不去重)5. 快速获取数据流中的中位数6. 最大频率栈7. 全O(1)结构8. LFU缓存结构 本节的内容比较难, 大多是leetcodeHard难度级别的题目 1. 带有setAll功能的哈希表 哈希…

智能交通(3)——Learning Phase Competition for Traffic Signal Control

论文分享 https://dl.acm.org/doi/pdf/10.1145/3357384.3357900https://dl.acm.org/doi/pdf/10.1145/3357384.3357900 论文代码 https://github.com/gjzheng93/frap-pubhttps://github.com/gjzheng93/frap-pub 摘要 越来越多可用的城市数据和先进的学习技术使人们能够提…

【2024_CUMCM】时间序列算法ARMA

目录 2023-c-问题二 问题分析 介绍 单位根检验 白噪声检验 自相关和偏自相关图 利用信息准则定阶 构建AMIMA模型 D-W检验 预测 代码 2023-c-问题二 问题分析 ARMA适合多个领域的时间序列分析&#xff0c;不同时间的定价策略属于这类问题。 介绍 ARMA模型&…

《python程序语言设计》2018版第5章第52题利用turtle绘制sin函数

这道题是送分题。因为循环方式已经写到很清楚&#xff0c;大家照抄就可以了。 但是如果说光照抄可是会有问题。比如我们来演示一下。 import turtleturtle.penup() turtle.goto(-175, 50 * math.sin((-175 / 100 * 2 * math.pi))) turtle.pendown() for x in range(-175, 176…

芯片封装简介

1、背景 所谓“封装技术”是一种将集成电路用绝缘的塑料或陶瓷材料打包的技术。以CPU为例&#xff0c;实际看到的体积和外观并不是真正的CPU内核的大小和面貌&#xff0c;而是CPU内核等元件经过封装后的产品。封装技术对于芯片来说是必须的&#xff0c;也是至关重要的。因为芯片…

鸿蒙开发管理:【@ohos.account.distributedAccount (分布式帐号管理)】

分布式帐号管理 本模块提供管理分布式帐号的一些基础功能&#xff0c;主要包括查询和更新帐号登录状态。 说明&#xff1a; 本模块首批接口从API version 7开始支持。后续版本的新增接口&#xff0c;采用上角标单独标记接口的起始版本。开发前请熟悉鸿蒙开发指导文档&#xff…

【扩散模型】LCM LoRA:一个通用的Stable Diffusion加速模块

潜在一致性模型&#xff1a;[2310.04378] Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference (arxiv.org) 原文&#xff1a;Paper page - Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference (…

【数据结构】经典链表题目详解集合(反转链表、相交链表、链表的中间节点、回文链表)

文章目录 一、反转链表1、程序详解2、代码 二、相交链表1、程序详解2、代码 三、链表的中间节点1、程序详解2、代码 四、回文链表1、程序详解2、代码 一、反转链表 1、程序详解 题目&#xff1a;给定单链表的头节点 head &#xff0c;请反转链表&#xff0c;并返回反转后的链…

聚焦大模型应用落地,2024全球数字经济大会人工智能专题论坛在京举办

7月1日下午&#xff0c;2024全球数字经济大会人工智能专题论坛在中关村国家自主创新示范区会议中心举办。论坛紧扣大模型应用落地这一热点&#xff0c;以“应用即未来——大模型赋能千行百业&#xff0c;新生态拥抱产业未来”为主题&#xff0c;备受社会各界关注。 一、北京已…

Canal架构以及使用规范

Canal架构以及使用规范 一、Canal的作用 相关文档&#xff1a;GitHub - alibaba/canal: 阿里巴巴 MySQL binlog 增量订阅&消费组件 MySQL主备复制原理 MySQL master 将数据变更写入二进制日志( binary log, 其中记录叫做二进制日志事件binary log events&#xff0c;可…

Docker:Docker网络

Docker Network 是 Docker 平台中的一项功能&#xff0c;允许容器相互通信以及与外界通信。它提供了一种在 Docker 环境中创建和管理虚拟网络的方法。Docker 网络使容器能够连接到一个或多个网络&#xff0c;从而使它们能够安全地共享信息和资源。 预备知识 推荐先看视频先有…

SQL Server 2022 中的 Tempdb 性能改进非常显著

无论是在我的会话中还是在我写的博客中&#xff0c;Tempdb 始终是我的话题。然而&#xff0c;当谈到 SQL Server 2022 中引入的重大性能变化时&#xff0c;我从未如此兴奋过。他们解决了我们最大的性能瓶颈之一&#xff0c;即系统页面闩锁并发。 在 SQL Server 2019 中&#x…

Go语言--复合类型之map、结构体

map Go 语言中的 map(映射、字典)是一种内置的数据结构&#xff0c;它是一个无序的 key-value 对的集合&#xff0c;比如以身份证号作为唯一键来标识一个人的信息。 格式 map [keyType]valueType 在一个 map 里所有的键都是唯一的&#xff0c;而且必须是支持和!操作符的类型…

Git仓库介绍

1. Github GitHub 本身是一个基于云端的代码托管平台&#xff0c;它提供的是远程服务&#xff0c;而不是一个可以安装在本地局域网的应用程序。因此&#xff0c;GitHub 不可以直接在本地局域网进行安装。 简介&#xff1a;GitHub是最流行的代码托管平台&#xff0c;提供了大量…

【MySQL】4.MySQL 的数据类型

MySQL 的数据类型 一.数据类型分类在这里插入图片描述二.注意点1.char VS varchar2.datetime VS timestamp3.enum 和 set 的使用方法 一.数据类型分类 二.注意点 1.char VS varchar char 的意义是直接开辟固定大小的空间&#xff0c;浪费磁盘空间&#xff0c;但是效率高varcha…