用 AudioGPT 输入自然语言,可以让 ChatGPT 唱歌了?

6dfb7d847d91d5185515b4356c0b9d01.jpeg夕小瑶科技说 原创
作者 | 智商掉了一地 

借助 ChatGPT 强大的理解与生成能力,结合基础语音模型,集成模型 AudioGPT 诞生了!

最近基于 ChatGPT 的二创如雨后春笋一样冒出,上周我们一起看了黑客松优秀作品大赏,这周又有新脑洞横空出世。有篇将 ChatGPT 用于语音理解与生成任务的文章在近日引起热议。

该模型结合了一些音频基础模型来处理具有挑战性的音频任务,并提供了一个模态转换接口,实现了口语对话功能,它擅长在多轮对话中理解和生成语音、音乐、声音以及说话者特写。虽然这是一个集成模型,但它也展现了 AIGC 工具在更多领域中的潜力。

经过语音和文本之间的转换,借助 ChatGPT 强大的语言理解与生成能力,该模型可以实现用自然语言对于语音进行操作,比如风格迁移、语音识别、语音增强等。甚至还能用自然语言直接指挥 AI,让它声情并茂地演唱《小酒窝》,以及合成说话者特写。也许未来将有机会借助这样的插件,使我们不再局限于与 ChatGPT 进行文本式对话,还可以轻松地创造丰富多样的音频内容。

论文题目
AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head

论文链接
https://arxiv.org/abs/2304.12995

代码地址
https://github.com/AIGC-Audio/AudioGPT

Huggingface demo 地址
https://huggingface.co/spaces/AIGC-Audio/AudioGPT

ChatGPT传送门(免墙,可直接测试):
https://yeschat.cn

GPT-4传送门(免墙,可直接测试,遇到浏览器警告点高级/继续访问即可):<br>
https://gpt4test.com


AudioGPT 支持的任务

AudioGPT 可以借助一些基础模型来理解和生成语音、音乐、声音以及说话者特写的任务,利用 ChatGPT 让生成和理解的结果更自然,其中包括:

音频到文本

  • 音频文本转换(Speech Recognition):将人类语音转换成文本 - 基础模型 Whisper;

  • 音频翻译(Speech Translation):将人类语音翻译成另一种语言 - 基础模型 MultiDecoder;

  • 音频字幕(Audio Caption):将音频描述转换成文本。

音频到音频

  • 音频风格转换(Style Transfer):根据参考样式生成带有对应风格的人类语音 - 基础模型 GenerSpeech;

  • 音频增强(Speech Enhancement):通过降噪等方式提高语音的质量 - 基础模型 ConvTasNet;

  • 语音分离(Speech Separation):分离混合多种语音的不同音频信号 - 基础模型 TF-GridNet;

  • 单声道转立体声(Mono-to-Binaural):将单声道音频转换成立体声 - 基础模型 NeuralWarp;

  • 填补音频空白(Audio Impainting):根据用户提供的 Mask 修复音频中的缺失部分 - 基础模型 Make-An-Audio。

5bfb0b2226e747b9593b814ac534d668.png

音频到事件

  • 音频事件提取(Sound Extraction):根据描述提取音频片段;

  • 声音检测(Sound Detection):预测音频中事件的时间轴 - 基础模型 LASSNet。

音频到视频

  • 语音生成头像视频(Talking Head Synthesis):通过输入的音频生成一个说话的人类头像视频 - 基础模型 GeneFace。

文本到音频

  • 文本语音生成(Text-to-Speech):根据用户输入的文本生成人类语音 - 基础模型 FastSpeech 2。

图像到音频

  • 图像音频生成(Image-to-Audio):根据图像生成对应的音频 - 基础模型 Make-An-Audio。

乐谱到音频

  • 乐谱生成歌声(Singing Synthesis):根据输入的文本、音符和节奏生成歌声 - 基础模型 DiffSinger 和 VISinger。

31be78adb17426436418e2a157bd22fe.png f5e95ca8f95c3fbec38cf29ce5d0cfe3.png

模型速览

支持音频处理的 LLMs 的训练仍然具有挑战性,原因如下:

  1. 数据有限:获得人工标注的语音数据是一个昂贵和耗时的任务,而提供真实世界的口语对话的资源仅有少数可用。此外,与庞大的网络文本数据相比,数据量有限,而多语言的对话数据则更为稀缺。

  2. 浪费计算资源:从头开始训练多模态 LLM 需要大量的计算资源和时间。鉴于已经存在可以理解和生成语音、音乐、声音和说话者特写的音频基础模型,从头开始训练将是一种浪费。

本文提出的 AudioGPT 是一个多模态的人工智能系统。它针对于上述问题,对目前的 ChatGPT 应用进行了补充,具体有两点:

  1. 配备基础模型:处理复杂的音频信息,将 ChatGPT 视为通用接口,解决大量的理解和生成任务。

  2. 连接输入/输出接口(ASR,TTS):支持口语对话。

8f9fd328fcf842ad6e12c025ee27ed11.png
▲图1 AudioGPT 的概览

如图 1 所示,AudioGPT 的整个处理过程可以分为四个阶段:

  • 模态转换:使用输入/输出接口进行语音和文字之间的模态转换,以缩小口语 LLM 与 ChatGPT 之间的差距。

  • 任务分析:利用对话引擎和提示管理器帮助 ChatGPT 理解用户的意图来处理音频信息。

  • 模型分配:通过结构化参数来控制韵律、音色和语言,ChatGPT 为理解和生成音频基础模型进行分配。

  • 生成回复:在执行音频基础模型后,生成并返回给用户最终的回复。

实验

为了评估多模态 LLM 在人类意图理解和与基础模型合作方面的能力,作者从一致性、能力和健壮性三个方面对 AudioGPT 进行了实验与评估。

一致性设计

如图 2 所示,作者在这里介绍了如何在没有提供特定任务的训练示例的情况下评估 AudioGPT 的理解和解决问题能力。评估过程分为三个步骤:即提供提示、生成描述和人类评估

c63e84a00a85fdda3ef14d1371960eee.png

▲图2 一致性概览

评估的详情如表 1 所示:

c037c643b763d2e19b98a6d4907a3ba0.png

▲表1 用于评估查询-答案一致性的评级

能力

作为处理复杂音频信息的任务执行者,音频基础模型对于处理复杂的下游任务具有重要影响,表 2 中报告了其用于理解和生成语音、音乐、声音和讲话者头像的评估指标和下游数据集。

2ea13092eb2759f4481fb9c0fd728084.png

▲表2 AudioGPT 中的音频基础模型评估细节

鲁棒性

作者通过评估多模态 LLM 的鲁棒性来评估它们处理特殊情况的能力,包括长链式查询、不受支持的任务、多模态模型的错误处理以及超越上下文的能力。

为了评估鲁棒性,采用了一个三步的主观用户评分过程。

  1. 人类评注员根据上述四个分类提供提示。

  2. 将提示馈入 LLM 以制定完整的交互会话。

  3. 来自多模态 LLM 的不同受试者组进行对交互会话的评分,以验证其处理特殊情况的能力。

小结

综合来看,尽管 AudioGPT 在解决复杂的音频相关 AI 任务方面表现出色,但也存在一些限制:

  1. Prompt 工程:它需要进行自然语言指令的构建,这需要专业知识和较长的时间,如果不熟悉相关领域,可能会影响指令的效果。

  2. 长度限制:聊天机器人当前仍需要考虑到最大标记长度的限制,这可能会影响对话的连贯性和用户的指示说明。

  3. 能力限制:AudioGPT 的性能与音频基础模型的准确性和有效性密切相关。

这些限制提醒着我们,在看待这些基于 ChatGPT 的新系统时要保持清醒的认识。同时,也让我们意识到 Prompt 工程对于构建更高效和可靠的 AI 系统至关重要,使其更为普遍且易于使用。我们期待未来能够涌现更多具有开创性的 AI 技术,利用其强大的理解与生成能力,丰富我们的生活、改善日常业务的处理效率。我们拭目以待,并期待着 AIGC 相关的技术日渐成熟,可以更好地服务于人类社会~

2c81c1c10b8f1b444de78a44349a3750.png5dd04ff6a774f0184c409bfaccdecace.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7987.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第二次报告(软件需求规格说明最终版)

软件需求规格说明 1. 引言 1. 1目的 1. 2文档约定 1. 3预期的读者和阅读建议 1. 4产品的范围 1. 5参考文献 2. 综合描述 2.1产品的前景 2.2产品的功能 2.3用户类和特征 2.4运行环境 2.5设计和实现上的限制 2.6假设和依赖 3. 外部接口需求 3. 1用户界面 3. 2硬件…

Telnet登录提权

一、实验环境 目标主机&#xff1a; Metasploit2虚拟机 192.168.20.143 攻击主机&#xff1a; Kali2虚拟机 192.168.20.133 二、实验过程 1.msf登录telnet 详情参考Telnet暴力破解_Myu_wzy的博客-CSDN博客此文章 2.msf连接shell下载exploit 在本地下载exploit&#xff0c;…

在飞书搞了个机器人,我让ChatGPT帮忙写算法

一、前言 环境&#xff1a; 系统&#xff1a;Windows 11 64位 Python版本&#xff1a;Python 3.9 注&#xff1a;本文不讲怎么实现&#xff0c;只讲实现的效果和一些思考。大家感兴趣再考虑去配置相关机器人。 先来问问ChatGPT两个问题&#xff1a; 1、ChatGPT是什么&#xff…

ChatBI- ChatGPT的垂直领域思考

声明&#xff1a;本文将从技术角度对比几款商用BI产品的AI辅助功能。鉴于个人的认知水平&#xff0c;所描述的内容&#xff0c;若有不妥&#xff0c;请斧正。 BI之痛 从事大数据工作十余年&#xff0c;近两年负责制造业BI工作&#xff0c;总结了一些痛点问题&#xff1a; 技术…

Cursor——ChatGPT的替代品【笔记】

Cursor——ChatGPT的替代品【笔记】 前言推荐Cursor——ChatGPT的替代品下载登录使用高级另外 最后 前言 2023-3-31 22:00:44 以下内容源自《笔记》 仅供学习交流使用 推荐 什么&#xff1f; 你还没用过 Cursor&#xff1f; 智能 AI 代码生成工具 Cursor 安装和使用介绍 C…

ChatGPT可以替代人类做哪些工作?

随着时代不断发展&#xff0c;人工智能技术正在日益发展&#xff0c;越来越多的人工智能技术正在改变人们的生活。其中&#xff0c;Chat GPT&#xff08;Generative Pre-trained Transformer&#xff09;也是一种新型的机器学习技术&#xff0c;可以替代人类做一些繁琐的工作。…

全网最详细中英文ChatGPT-GPT-4示例文档-从0到1快速入门多语种翻译应用场景——官网推荐的48种最佳应用场景(附python/node.js/curl命令源代码,小白也能学)

List item 从0到1快速入门多语种翻译应用场景 Introduce 简介setting 设置Prompt 提示Sample response 回复样本API request 接口请求python接口请求示例node.js接口请求示例curl命令示例json格式示例 其它资料下载 ChatGPT是目前最先进的AI聊天机器人&#xff0c;它能够理解图…

DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率

点击蓝字 关注我们 关注并星标 从此不迷路 计算机视觉研究院 公众号ID&#xff5c;计算机视觉研究院 学习群&#xff5c;扫码在主页获取加入方式 计算机视觉研究院专栏 Column of Computer Vision Institute 大型AI模型正在改变数字世界。基于大型语言模型 (LLM) 的 Turing-NLG…

让你的类ChatGPT千亿大模型提速省钱15倍,微软开源 DeepSpeed-Chat

作者 | 微软 DeepSpeed 开源项目组 来源 | 开源社&#xff08;中文版授权开源社首发&#xff09; 概述 近日来&#xff0c;ChatGPT 及类似模型引发了人工智能&#xff08;AI&#xff09;领域的一场风潮。这场风潮对数字世界产生了革命性影响。ChatGPT 类模型具有惊人的泛用性&a…

ChatGPT和 dalle2 配合生成故事绘本

和 dalle2 配合生成故事绘本 在之前章节中&#xff0c;我们已经尝试过让 ChatGPT 来生成一些故事情节&#xff0c;不管是影视剧还是小说还是游戏都可以。这时候&#xff0c;自然而然的可以联想到&#xff1a;那我们可不可以一步到位&#xff0c;把 ChatGPT 编出来的故事情节&a…

科研工具-论文写作翻译软件优缺点介绍

当今&#xff0c;科研学习已经成为人们生活中不可或缺的一部分&#xff0c;而随着全球化的发展&#xff0c;跨语言沟通也变得越来越重要。翻译软件因此也变得越来越普及。针对科研学习中的翻译需求&#xff0c;目前市面上涌现了许多优秀的翻译软件&#xff0c;它们可以辅助我们…

DeepSpeed-Chat 打造类ChatGPT全流程 笔记二之监督指令微调

文章目录 系列文章0x0. 前言0x1. &#x1f415; Supervised finetuning (SFT) 教程翻译&#x1f3c3; 如何训练模型&#x1f3c3; 如何对SFT checkpoint进行评测?&#x1f481; 模型和数据☀️来自OPT-1.3B及其SFT变体&#xff08;使用不同微调数据&#xff09;的提示示例☀️…

chatpdf使用说明

传送门&#xff1a;https://www.chatpdf.com/ chatpdf是一个可以让你与PDF文件进行对话的工具&#xff0c;它可以帮助你快速提取PDF文件中的信息&#xff0c;例如手册、论文、合同、书籍等。 要使用chatpdf&#xff0c;你需要先访问它的网站&#xff0c;并点击“Upload PDF”…

又一巨头宣布入局AIGC,一口气开源数个模型,还道出了它的变现之道

金磊 发自 凹非寺量子位 | 公众号 QbitAI AIGC&#xff08;AI生成内容&#xff09;&#xff0c;这个概念在今年可以说是火得一塌糊涂。 例如Stable Diffusion&#xff0c;只要对它说一句话&#xff0c;“唰唰唰”地就能秒生成画作。 再如最近大火的ChatGPT&#xff0c;对答如流…

全面开放!Google Bard使用教程

一 前言 在2002.5.12举办的Google I/O发布会上&#xff0c;Google宣布从即日起将Bard全面开放&#xff0c;全球超过180个国家只要点击进入bard.google.com&#xff0c;无需等候就能使用。 Bard有哪些特点&#xff1f;通过与ChatGPT的对比&#xff0c;就可以很快地了解Bard&am…

【研究】CSDN 到底是怎么套壳 ChatGPT 的?稍微研究了一下提示词

昨天 CSDN 宣布推出自研的一款 AI 聊天助手“ChitGPT”&#xff0c;定位是“专门为开发者设计的大型语言模型&#xff0c;能解决例如代码生成(用 js 写一个冒泡排序)&#xff0c;代码错误追踪等问题”。 但是相信大家也知道了&#xff0c;只要问它“Who are you?”&#xff0…

Science:AI竞赛,学界正在输给业界

【编者按】人工智能&#xff08;AI&#xff09;正在向业界倾斜。相比于学界的前沿性研究&#xff0c;风靡当下的 AI 聊天机器人 ChatGPT、AI 艺术生成器 Midjourney&#xff0c;以及微软发布的新一代 AI 驱动搜索引擎 New Bing、谷歌发布 ChatGPT 竞品 Bard 和那些未来将要发布…

A Survey on Evaluation of Large Language Models

这是LLM相关的系列文章&#xff0c;针对《A Survey on Evaluation of Large Language Models》的翻译。 大型语言模型评价综述 摘要1 引言2 背景2.1 大语言模型2.2 AI模型评估 3 评估什么3.1 自然语言处理任务3.1.1 自然语言理解3.1.2 推理3.1.3 自然语言生成3.1.4 多语言任务…

深度长文|详解现象级ChatGPT发展历程、原理、技术架构详解和产业未来

来源&#xff1a;工业互联网研习社 作者&#xff1a;陈巍博士&#xff0c;曾担任华为系自然语言处理&#xff08;NLP&#xff09;企业的首席科学家&#xff0c;文章首发于「先进AI技术深入解读」 工业互联网浪潮来袭&#xff0c;你准备好了吗&#xff1f; 每一代GPT模型的参数量…

一个 ChatGPT,还能养活多少 AI 新老板?

内容一览&#xff1a;当下&#xff0c;国内 AI 创业十分火爆&#xff0c;截止目前加入这个阵营的已有贾扬清等多位明星创业者。然而&#xff0c;这次 ChatGPT 的出现能否打破国内 AI 公司缺少规模化落地的创业「魔咒」&#xff1f; 本文首发自 HyperAI超神经微信公众号~ 刚刚过…