能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么

类 ChatGPT 模型的输入框里可以粘贴语音文档了。

大型语言模型(LLM)正在改变每个行业的用户期望。然而,建立以人类语音为中心的生成式人工智能产品仍然很困难,因为音频文件对大型语言模型构成了挑战。

将 LLM 应用于音频文件的一个关键挑战是,LLM 受其上下文窗口的限制。在一个音频文件能够被送入 LLM 之前,它需要被转换成文本。音频文件越长,绕过 LLM 的上下文窗口限制的工程挑战就越大。但工作场景中,我们往往需要 LLM 帮我们处理非常长的语音文件,比如从一段几个小时的会议录音中抽取核心内容、从一段访谈中找到某个问题的答案……

最近,语音识别 AI 公司 AssemblyAI 推出了一个名为 LeMUR 的新模型。就像 ChatGPT 处理几十页的 PDF 文本一样,LeMUR 可以将长达 10 小时的录音进行转录、处理,然后帮用户总结语音中的核心内容,并回答用户输入的问题。

试用地址:

https://www.assemblyai.com/playground/v2/source

LeMUR 是 Leveraging Large Language Models to Understand Recognized Speech(利用大型语言模型来理解识别的语音)的缩写,是将强大的 LLM 应用于转录的语音的新框架。只需一行代码(通过 AssemblyAI 的 Python SDK),LeMUR 就能快速处理长达 10 小时的音频内容的转录,有效地将其转化为约 15 万个 token。相比之下,现成的、普通的 LLM 只能在其上下文窗口的限制范围内容纳最多 8K 或约 45 分钟的转录音频。

为了降低将 LLM 应用于转录音频文件的复杂性,LeMUR 的 pipeline 主要包含智能分割、一个快速矢量数据库和若干推理步骤(如思维链提示和自我评估),如下图所示:

图 1:LeMUR 的架构使用户能够通过一个 API 调用将长的和 / 或多个音频转录文件发送到 LLM 中。

未来,LeMUR 有望在客服等领域得到广泛应用。

LeMUR 解锁了一些惊人的新可能性,在几年前,我认为这些都是不可能的。它能够毫不费力地提取有价值的见解,如确定最佳行动,辨别销售、预约或呼叫目的等呼叫结果,感觉真的很神奇。—— 电话跟踪和分析服务技术公司 CallRail 首席产品官 Ryan Johnson

LeMUR 解锁了什么可能性?

将 LLM 应用于多个音频文本

LeMUR 能够让用户一次性获得 LLM 对多个音频文件的处理反馈,以及长达 10 小时的语音转录结果,转化后的文本 token 长度可达 150K 。

可靠、安全的输出

由于 LeMUR 包含安全措施和内容过滤器,它将为用户提供来自 LLM 的回应,这些回应不太可能产生有害或有偏见的语言。

可补充上下文

在推理时,它允许加入额外的上下文信息,LLM 可以利用这些额外信息在生成输出时提供个性化和更准确的结果。

模块化、快速集成

LeMUR 始终以可处理的 JSON 形式返回结构化数据。用户可以进一步定制 LeMUR 的输出格式,以确保 LLM 给出的响应是他们下一块业务逻辑所期望的格式(例如将回答转化为布尔值)。在这一流程中,用户不再需要编写特定的代码来处理 LLM 的输出结果。

试用结果

根据 AssemblyAI 提供的测试链接,机器之心对 LeMUR 进行了测试。

LeMUR 的界面支持两种文件输入方式:上传音视频文件或粘贴网页链接均可。

我们用 Hinton 近期的一份访谈资料作为输入,测试 LeMUR 的性能。

上传之后,系统提示我们要等一段时间,因为它要先把语音转成文字。

转录之后的界面如下:

在页面右侧,我们可以要求 LeMUR 总结采访内容或回答问题。LeMUR 基本可以轻松地完成任务:

如果要处理的语音是一段演讲或客服回复,你还能向 LeMUR 征求改进建议。

不过,LeMUR 似乎目前还不支持中文。感兴趣的读者可以去尝试一下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/25346.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

weui icon图标大全

转载 https://blog.csdn.net/qq_36433857/article/details/84190038

git 突然不出 绿色,红色的图标了

winr 打开后找到“HKEY_LOCAL_MACHINE–>SOFTWARE–>Microsoft–>Windows–>CurrentVersion–>Explorer–>ShellIconOverlayIdentifiers”这一项 将Tortoise相关的项都提到靠前的位置(重命名,在名称之前加几个空格) &am…

git绿色、红色图标不显示的问题(有图有真相)

今天在使用git的时候发现项目没有图标显示,感觉很难受,百度搜了好多,感觉这个挺好用的,记录一下。 图标,我们一般情况下就用两个图标,红标和绿标 顾名思义:绿标是指代码提交成功的,红…

exe文件更换图标方法

exe文件更换图标 想更换exe文件的默认图标,但又不想下载什么软件,在网上搜索后找到一种不需要下载特定软件的“欺骗法”。 注意:本方法并不是真的更换了exe文件的图标,而是为exe文件包装了一个壳子,使得外观上看起来更…

如何引入iconfont中的单色图标和多色图标(超简单)

网址:iconfont-阿里巴巴矢量图标库 超简单!再不会引入就过分了哈! 一、单色图标引入 1、选择需要的图标 2、创建新项目、添加至该项目、下载到本地 3、将压缩包解压到自己的代码文件夹中 4、在html中link引入并回到网址上复制图标代码 5、以i标签和icon…

VC应用 -个性化你的工具栏图标

1、首先,提供一些最好的图标,大家可以省去自己绘画图标的功夫,可以从繁琐的绘图工作中解脱出来。 ToYcon 在线网页转换PNG-ICON http://converticon.com/ 一个非常好的ICO图标查找网站 http://www.iconfinder.net http://www.iconlet.c…

iconfont 彩色图标的使用

之前写过iconfont单色图标的应用,今天来介绍一下彩色图标的使用 文章目录 一、去iconfont矢量图库下载素材1、挑选自己喜欢的素材2、然后下载到本地,是个压缩包3、把压缩包解压到你的项目底下4、打开解压后的文件5、打开demo_index.html 二、在页面中引入…

下载iconfont图标

iconfont.js: const fs require(‘fs’); const https require(‘https’); // 解压工具,需要安装 const Admzip require(‘adm-zip’); // 项目成员在阿里图标库网站的cookie const cookie require(‘./iconfont.json’).cookie; // 阿里图标库域…

引入icon图标

最新方法:使用svg-sprite-loader引入icon 一.svg-sprite-loader的基本使用 1.在iconfont.cn下载好需要的图标后,把它添加到项目assets里并引入。 那如何引入呢? 🔍typescript svg cannot find module 方法:在系统文件shims-vue.d.ts里添加如下代码 sr…

Qt 更改exe图标显示

1、制作.ico格式图标。 (网上有在线转换工具) 2、将制作好的ico图标重新命名,比如:exe._ico.ico,然后拷贝到项目工程.pro相同路径下。 3、在Qt 项目工程文件下.pro。添加一行 : RC_ICONS exe_ico.ico 4、重新构建可执行程序。

震撼来袭,GPT-4全解读

今年3月,OpenAI团队正式宣布:GPT-4 来了! 微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩 OpenAI发布的GPT-4是深度学习方面的最新里程碑。GPT-4是一个大型的多模态模型(可接收图像和文本输入…

chatgpt赋能python:Python发短信给手机:一种快速高效的通讯方式

Python 发短信给手机:一种快速高效的通讯方式 在当今数字化的时代,手机已成为人们日常生活不可或缺的一部分。然而,对于那些需要快速高效地与手机用户进行通讯的人们来说,传统的打电话和发送短信的方式则显得有些过于繁琐。对于这…

chatgpt赋能python:如何使用Python读取手机短信

如何使用Python读取手机短信 在现代社会,短信已成为人们生活中不可或缺的一部分。那么,如何利用Python读取手机短信呢?本文将介绍如何使用Python读取手机短信,并提出一些相关的建议。 什么是Python Python是一种高级的、开源的…

chatgpt赋能python:Python如何免费群发短信

Python如何免费群发短信 在数字化时代,短信成为了快速高效的沟通方式之一。针对群发短信需求,市场上存在着多种短信群发软件,而Python作为一个强大的编程工具,也可以轻松实现免费的短信群发功能。本篇文章将为大家介绍如何通过Py…

chatgpt赋能python:Python短信通知:方便快捷的业务提醒方式

Python短信通知:方便快捷的业务提醒方式 在现代社会,很多企业和组织需要及时地向员工、客户和用户发送通知,以便于协调业务和提高效率。而短信通知作为一种常用的业务提醒方式,已经成为了很多组织中不可或缺的一部分。Python语言…

北京十大律师事务所(排名涉及刑事、拆迁婚姻)

无论任何行业,首先要敬业。你需要了解:这个行业是干什么的?你在行业中处于什么地位?这个行业在社会各界的地位和价值如何?它的基本价值观是什么?作为律师,首先要对行业有敬畏感、尊崇感&#xf…

中国裁判文书网(2020最新版)

1.序言 因业务需要去爬取裁判文书网,查看了网上的诸多教程发现裁判文书网的反爬更新频率很高,但是从19年8月份更新之后再也没有新的更新了。估计是现在的反爬已经足够使用了,裁判文书网的反爬主要有四种。听我一一道来 2.正文 裁判文书网的…

甄选北京十大律师事务所排名榜(资深团队、胜诉率高)

根据司法部数据统计得知,截至2022年第三季度,全国共有执业律师50万多人。全国共有律师事务所4万多家。律师行业正在正确的轨道蓬勃发展中。我们期待律师行业的不断壮大和发展,也希望更多的人能通过法律途径维护自己的合法权益。 大家都知道北…

违反 GPL 协议,法院判罚了!国内首例

公众号关注 “GitHub科技” 设为 “星标”,每天带你逛 GitHub! 来自开源中国 近日,一起关于 GPL 版权纠纷案裁判文书公示。一审判决书显示,GPL3.0 协议是一种民事法律行为,具有合同性质,可认定为授权人与用…

律师也要职业危机?ChatLaw帮助普通人拥有自己的法律顾问

ChatLaw法律大模型近期出圈,发布上线当日即登顶知乎热搜榜第一,在Github已有近3k的star,被网友戏称之为大型模型中的“罗翔老师”。 ChatLaw法律大模型介绍 ChatLaw开源法律大模型来自北京大学ChatExcel课题组,目前仅提供学术参考…