Kyutai 是一家专注于开放式 AI 研究的非营利性实验室,它推出了开源的 Moshi Chat 项目
Kyutai 是一家致力于推进人工智能 (AI) 开放研究的非营利性实验室,其最新创新 Moshi Chat 取得了重大进展。这种尖端的实时原生多模态基础模型代表了人工智能技术的卓越成就。Kyutai 推出的 Moshi Chat 因其令人印象深刻的功能而受到关注,尤其是在同时听和说的领域。与传统的 AI 模型不同,Moshi Chat 旨在理解和表达情感,使与它的交互更加自然和引人入胜。
凭借其独特的功能和开源可用性,Moshi Chat 成为 AI 开发的先驱。
Moshi Chat 的发展证明了 Kyutai 对透明度和协作创新的承诺。该模型能够同时处理两个音频流(实时收听和说话),这使其有别于其他 AI 模型。
这种能力的基础是文本和音频数据组合的强大联合预训练过程,利用来自 Helium 的合成文本数据,Helium 是 Kyutai 开发的 70 亿参数语言模型。人工智能技术的这种进步是严谨研究和微调的结果,旨在实现无缝和高效的性能。
Kyutai Moshi Chat的技术
Moshi Chat 的突出特点是其实时交互功能,使其能够同时收听和响应。这是通过对文本和音频数据的混合进行联合预训练来实现的,确保模型能够保持文本和听觉信息的流畅流动。Moshi Chat 语音处理能力的基础是 Helium 模型,这是一个拥有 70 亿参数的语言模型,是这项创新技术的支柱。
根据 Kyutai Moshi Chat 在 YouTube 上的主题演讲,Moshi Chat 的微调过程涉及 100,000 个“口头式”合成对话的广泛数据集。这些对话使用类似于 Murf AI 的文本转语音 (TTS) 技术进行转换,使模型能够非常准确地生成和理解语音。TTS 引擎支持 70 种不同的情感和风格,使用由授权配音员录制的 20 小时音频进行微调。这种一丝不苟的培训方法造就了一个模型,它不仅能理解口语,还能传达情感和细微差别,使互动更加自然和引人入胜。
Kyutai 对负责任地使用 AI 的承诺体现在他们加入水印来检测 AI 生成的音频中。此功能仍在进行中,强调了 AI 开发中道德考虑的重要性。此外,将 Moshi Chat 作为开源项目发布的决定凸显了 Kyutai 致力于在 AI 社区内营造协作环境的奉献精神。
Moshi AI的训练和微调过程
Moshi Chat 的开发涉及严格的培训和微调过程,以确保其高水平的性能。该模型使用 Helium 7B 基础文本语言模型从头开始训练,然后与文本和音频编解码器联合训练。
语音编解码器基于 Kyutai 的内部 Mimi 模型,拥有 300 倍的压缩系数,这有助于在保持音频质量的同时减小数据大小。
Moshi Chat 的微调过程涉及用情感和风格注释 100,000 份高度详细的成绩单。这些注释使模型能够理解和传达各种情感,使与模型的交互更加逼真和引人入胜。文本转语音引擎支持 70 种不同的情感和风格,使用由一位名叫 Alice 的持牌配音员录制的 20 小时音频进行了微调。
Kyutai 对适应性的关注体现在 Moshi Chat 能够用不到 30 分钟的音频进行微调的能力上。此功能允许用户自定义模型以满足特定需求,无论是用于研究、语言学习还是其他应用程序。该模型的部署展示了其效率和多功能性,可在 24 GB VRAM 下处理两种批处理大小,并支持多个后端。推理代码的优化,如增强的 KV 缓存和提示缓存,预计将进一步提高 Moshi Chat 的性能。
Kyutai Labs 为所有人提供的技术
Moshi Chat 不仅是一个技术奇迹,而且非常容易访问。Kyutai 开发了该型号的较小变体,可以在 MacBook 或消费级 GPU 上运行,使其可供更广泛的用户使用。
该模型的效率进一步体现在部署在 Scaleway 和 Hugging Face 等平台上,它在 24 GB VRAM 上处理两种批量大小,支持各种后端,包括 CUDA、Metal 和 CPU。
该模型的语音基于单独的 TTS 模型生成的合成数据进行训练,实现了令人印象深刻的 200 毫秒的端到端延迟。这种低延迟对于实时交互至关重要,使 Moshi Chat 能够几乎即时响应用户输入。使用 Rust 开发的高级训练技术和优化的推理代码相结合,有助于提高模型的卓越性能。增强的 KV 缓存和提示缓存也有望进一步提高模型的效率。
Yann LeCun 发布的演示展示了这种新 AI 模型的运行情况。
来自 https://t.co/TngVXgSjzX https://t.co/qftjudOq1k 的 Moshi 的现场演示— Yann LeCun (@ylecun) July 3, 2024
展望未来,Kyutai 对 Moshi Chat 有雄心勃勃的计划。该团队打算发布一份全面的技术报告和开放模型版本,包括推理代码库、7B 模型、音频编解码器和完全优化的堆栈。Moshi Chat 的未来迭代(例如 1.1、1.2 和 2.0 版本)将纳入用户反馈,以完善和增强模型的功能。
Kyutai 的宽松许可旨在鼓励广泛采用和创新,确保不同的受众都能获得 Moshi Chat 的好处。
如何使用 Moshi Chat
用户可以并且被鼓励通过Kyutai网站在线试用Moshi Chat。到达那里后:
- 输入您的电子邮件
- 点击“加入队列”
- 开始说话
无论是讨论日常话题还是探索更复杂的话题,用户都可以自然地与 Moshi Chat 互动,受益于其先进的语音识别和合成功能。