8人团队历时半年打造开源版GPT-4o,零延迟演示引爆全网!人人可免费使用!

目录

01 Moshi

02 背后技术揭秘




GPT-4o可能要等到今年秋季才会公开。

然而,由法国8人团队开发的原生多模态Moshi,已经达到了接近GPT-4o的水平,现场演示几乎没有延迟,吸引了大量AI专家的关注。


令人惊讶的是,开源版的GPT-4o来得如此之快!
 

01 Moshi

昨晚,来自法国AI实验室kyutai的团队展示了首个实时原生多模态Moshi,效果媲美5月发布的GPT-4o。

例如,在一个演示中,Moshi作为助手帮助Alexa小哥进行太空探索,让人仿佛置身《流浪地球》中的Moss情景。


没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard




值得注意的是,这个由8人团队在仅仅半年的时间里,从零开始完成了模型的训练。


Moshi目前处于实验原型阶段,设计目的是理解和表达情感,支持听、说、看三种功能,并能够用70种不同的情绪和风格说话,甚至随时打断。

其最突出的能力是可以同时处理两个音频流,实现“听”和“说”同步进行。

这种实时互动的实现基于文本和音频混合的联合预训练,使用Helium中的合成文本数据,训练出70亿参数的模型。



Moshi的端到端延迟最低可达160ms。最小版本的Moshi还可以在笔记本电脑或消费级GPU上运行。

许多人认为这是最接近GPT-4o的模型,Moshi的惊艳表现赢得了LeCun、Karpathy等AI大佬的转发。

Moshi这个名字来源于日语中的“もしもし”(接电话时的问候语)。接下来,Patrick邀请了四位同事上台展示Moshi的强大语音能力。

02 背后技术揭秘


Moshi在技术上有哪些创新,才能具备对标GPT-4o的实力?随后,同事们介绍了当前语音AI的一些限制,例如“听”使用自动语音识别技术,“想”使用大模型,“说”使用文本-语音技术。

这些分门别类的技术会导致语音AI出现较多延迟。


他认为,最明显的事实是——GPT-4o的语音功能尚未推出,而Moshi已在发布后上线。


此外,他还提到了几个值得关注的技术要点:

  • 像kyutai这样的小型团队在6个月内构建出Moshi,表明其训练流程和架构非常简单且具有巨大的可扩展性,合成数据也起到了重要作用。
     
  • Moshi专注于本地设备的部署,这将使其迅速流行并无处不在。相比之下,像GPT这样的模型由于盈利需求,不太可能推动本地运行。
     
  • 在保持答案质量达到Llama 8B或以上水平的同时,将延迟降低到300ms以下是实现互动的关键因素。

那么,如何将这些步骤整合到单一的语音模型中呢?这正是kyutai的目标所在。

多模态Moshi不仅能够听和说,同时在语音输出时进行思考。

理论上,Moshi可以实现最低延迟为160毫秒,创造了世界新纪录。

该模型采用了I/O双通道系统,同时生成文本token和音频编解码器。

具体而言,语言模型Helium-7B首先进行从头训练,然后与文本和语音编码器联合训练。

语音编解码器基于Kyutai内部的Mimi模型,具有高达300倍的压缩系数,能够捕捉语义和声学信息。

在Moshi的微调过程中,采用了涉及100k个"口语式"合成对话的高度详细的文本记录,这些记录带有情感和风格注释,均由Helium模型转录而来。

此外,模型的语音训练还使用了另一个独立的TTS模型生成的合成数据。

模型还利用专业配音演员Alice录制了20小时的音频,并基于此进行微调。

研究人员指出,Moshi设计具有适应性,只需不到30分钟的音频即可完成微调。

在部署方面,Moshi托管在Scaleway和抱抱脸上,能够处理两个批次大小为24 GB VRAM的任务。

此外,它还支持多种后端,包括CUDA、KV缓存,并能通过Rust优化推理代码。

为确保音频安全性,Kyutai将为生成的音频加上水印,并在数据库中对其进行索引。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

推荐阅读:

GPT-4o不仅能写代码,还能自查Bug,程序员替代进程再进一步!

GPT-4替代大学生参加考试,94%成功作弊未被发现!

CTO透露GPT-5内幕,OpenAI 以36亿美元收购数据库初创公司

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/368618.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

汇聚荣拼多多评价好不好?

汇聚荣拼多多评价好不好?在探讨电商平台的口碑时,用户评价是衡量其服务质量和商品质量的重要指标。拼多多作为国内领先的电商平台之一,其用户评价自然成为消费者选择购物平台时的参考依据。针对“汇聚荣拼多多评价好不好?”这一问题,可以从…

【数据结构】(C语言):队列

队列: 线性的集合。先进先出(FIFO,first in first out)。两个指针:头指针(指向第一个进入且第一个出去的元素),尾指针(指向最后一个进入且最后一个出去的元素&#xff0…

下载安装MySQL

1.软件的下载 打开官网下载mysql-installer-community-8.0.37.0.msi 2.软件的安装 mysql下载完成后,找到下载文件,双击安装 3.配置环境变量 4.自带客户端登录与退出

CocoaPodsCmake

https://juejin.cn/post/7257048145233838141?searchId20240531171431E5868B41DC7B7016CCBA https://guides.cocoapods.org CocoaPods CocoaPods的作用 帮助程序员通过命令管理第三方库及更新,以达到扩展项目的目的。 CocoaPods的使用 在已有的工程目录下新增…

【test】小爱同学通过esp32控制电脑开关

文章目录 一、环境准备二、开关机原理数据传输框架 三、环境搭建1.巴法云平台设置2.米家设置3.windows网络唤醒设置4.搭建esp32开发环境并部署(1)新建项目(2)导入esp32库(3) 添加库(4&#xff0…

Oracle Database 23ai新特性:DB_DEVELOPER_ROLE角色

角色介绍 从 Oracle Database 23ai 开始,新角色“DB_DEVELOPER_ROLE”允许管理员快速分配开发人员为 Oracle 数据库设计、构建和部署应用程序所需的所有必要权限。(包括构建数据模型所需的系统权限以及监视和调试应用程序所需的对象权限)。通…

MySQL之备份与恢复(四)

备份与恢复 存储引擎和一致性 3.复制 从备库中备份最大的好处是可以不干扰主库,避免在主库上增加额外的负载。这是一个建立备库的好理由,即使不需要用它做负载均衡或高可用。如果钱是个问题,也可以把备份用的备库用于其他用户,…

【C语言】刷题笔记 Day2

【笔记】 【1】局部变量不初始化,默认放的随机值。 1 int n0; 2 scanf("%d",&n); //13.141 【2】这里虽然输入的是一个浮点数,但是只取整数部分。 【3】3.156e7 表示的是3.156*10的7次方。 【4】多组输入,保存和不保存…

半实物仿真测试系统

设备组成 test系统主要由硬件部分与软件部分组成。硬件部分由PCI机箱、PCI控制器以及各种PCI接口板卡组成。软件部分由测试设计软件模块、测试执行服务软件模块、测试执行客户端软件模块、设备资源管理软件模块等主要软件模块以及曲线数据生成、CRC插件生成与诊断、测试数据记录…

【UE5.3】笔记7 控制Pawn移动

使用A、D键控制角色左右移动 打开我们的BP_Player蓝图类,选择事件图表,添加我们的控制事件 右键,搜索A keyboard,选择A,如下图,D也是 添加扭矩力 首先我们要把我们的player上的模拟物理选项打开,这样我们…

Arduino - TM1637 4 位 7 段显示器

Arduino - TM1637 4 位 7 段显示器 Arduino-TM1637 4 位 7 段显示器 A standard 4-digit 7-segment display is needed for clock, timer and counter projects, but it usually requires 12 connections. The TM1637 module makes it easier by only requiring 4 connectio…

开始尝试从0写一个项目--后端(一)

创建文件的目录结构 利用这个界面创建 序号 名称 说明 1 SEMS maven父工程,统一管理依赖版本,聚合其他子模块 2 sems-common 子模块,存放公共类,例如:工具类、常量类、异常类等 3 sems-pojo 子模块&#x…

【Qt】之【Bug】大量出现“未定义的标识符”问题

背景 构建时出现大量错误 原因 中文注释问题 解决 方法1. 报错代码附近的中文注释全部删掉。。。 方法2. 报错的文件添加 // Chinese word comment solution #pragma execution_character_set("utf-8")

【C语言】—— 文件操作(下)

【C语言】—— 文件操作(下) 前言:五、文件的顺序读写5.1、 顺序读写函数介绍5.2、 f p u t c fputc fputc 函数5.3、 f g e t c fgetc fgetc 函数5.4、 f p u t s fputs fputs 函数5.5、 f g e t s fgets fgets 函数5.6、 f p r i n t f…

神经网络在机器学习中的应用:手写数字识别

机器学习是人工智能的一个分支,它使计算机能够从数据中学习并做出决策或预测。神经网络作为机器学习的核心算法之一,因其强大的非线性拟合能力而广泛应用于各种领域,包括图像识别、自然语言处理和游戏等。本文将介绍如何使用神经网络对MNIST数…

2024亚太杯中文赛数学建模选题建议及各题思路来啦!

大家好呀,2024年第十四届APMCM亚太地区大学生数学建模竞赛(中文赛项)开始了,来说一下初步的选题建议吧: 首先定下主基调, 本次亚太杯推荐大家选择B题目。C题目难度较高,只建议用过kaiwu的队伍…

怎样将word默认Microsoft Office,而不是WPS

设置——>应用——>默认应用——>选择"word"——>将doc和docx都选择Microsoft Word即可

PE文件学习

一、介绍 PE文件,即Portable Executable文件,是一种标准的文件格式,主要用于微软的Windows操作系统上。这种格式被用来创建可执行程序(如.exe文件)、动态链接库(.DLL文件)、设备驱动&#xff0…

苹果电脑虚拟机运行Windows Mac环境安装Win PD19虚拟机 parallels desktop19虚拟机安装教程免费密钥激活

在如今多元的数字时代,我们经常需要在不同的操作系统环境下进行工作和学习。而对于 Mac 用户来说,有时候需要在自己的电脑上安装 Windows 操作系统,以体验更多软件及功能,而在 Mac 安装 Windows 虚拟机是常用的一种操作。下面就来…

Codeforces Round 955 (Div. 2, with prizes from NEAR!)(A~C题解)

这场比赛怎么说呢,一开始打的还算好,能进前1000,但是后面就被卡住了,这个确实没办法水平还是不够,学过的还是没想起来,后面继续练 A. Soccer 题解:水题一个,想要在过程中出现平局的…