ChatGPT遇上WebRTC:生成式AI对实时通信意味着什么

ChatGPT正在改变计算,并作为一种延伸,改变我们与机器的互动方式。下面是它将如何影响WebRTC。

ChatGPT 成为所有互联网应用程序中增长率最高的服务,在推出的头两个月内就达到了 1 亿活跃用户。一些人每天都在使用它。其他人正在尝试使用它,许多人听说过它,我们所有人都会以这样或那样的方式受到它的影响。

我一直在试图弄清楚“ChatGPT WebRTC”二人组到底意味着什么,或者换句话说,ChatGPT 对我们这些从事 WebRTC 工作的人意味着什么。

关于ChatGPT的速成课程

让我们首先快速了解一下 ChatGPT 到底是什么(用外行的话来说,需要大量的操作,并且可能在此过程中会犯很多错误)。

BI、AI 和生成式 AI

我将从我为一群想了解这个问题的朋友所做的演讲而拼凑的几张幻灯片开始。

ChatGPT是一个利用机器学习的产品/服务。机器学习是一种经常被当作 AI 来推销的东西。如果你看一下这个领域是如何发展的,就会发现是下面这样的情况:

我们从简单的统计开始——取几个数字,将它们相加,除以它们的数量,你就得到了一个平均值。你可以用加权平均数把它复杂化一点。在此基础上增加一些统计数据,收集更多的数据点,拼凑出一个漂亮的BI(商业智能)系统。

在某种程度上,我们开始关注深度学习:

在这里,我们通过使用大量的数据点来训练一个模型,使该模型能够推断出关于给它的新数据的事情。比如 “你在这张照片中看到一只狗吗?”或 “这段录音中的文字是什么?”。

在这里,使用了很多 3 个字母的缩写,如 HMM、ANN、CNN、RNN、GNN……

深度学习在过去十年或二十年所做的是使机器能够描述事物——能够识别图像和视频中的物体,将语音转换为文本,等等。

这使它成为最终的分类器,改善了我们搜索和编目的方式。

然后以生成式人工智能的形式出现了一个新的解决方案领域。在这里,机器学习用于生成新数据,而不是对现有数据进行分类:

在这里,我们要做的是创建一个随机的输入向量,把它推到一个生成器模型中。生成器模型为我们创建了一个样本,一些应该产生我们想要创建的东西的类型(比如一张狗的照片)。然后,生成的样本被传递给 “传统的 “推理模型,检查这是否真的是我们想要生成的东西。如果不是,我们就反复尝试微调它,直到我们得到一个 “真实 “的结果。

这很耗费时间和资源,但对许多用例来说效果相当好(比如本网站文章中的一些图片,现在是在Midjourney的帮助下生成的)。

所以…

  • 我们从平均值和统计数据开始
  • 转向“深度学习”,这对我们来说很难解释算法是如何得出结果的(它不再基于简单的规则)
  • 然后我们就到了人工智能产生新数据的阶段

ChatGPT 的崛起

问题是,如果没有 ChatGPT,我刚才解释的所有这一切都不会有趣——这项服务最近才出现在我们的生活中,成为最热门的东西。

ChatGPT 基于 LLMs——大型语言模型,它正迅速成为周围最热门的东西。没有其他服务的增长速度像 ChatGPT 一样快,这就是为什么世界上每个企业现在都在努力弄清楚 ChatGPT 是否以及如何适应他们的世界和服务。

为什么 ChatGPT 和 WebRTC 就像油和水

所以这就提出了一个问题:你能用 ChatGPT 和 WebRTC 做什么?

问题是,ChatGPT 和 WebRTC 就像油和水,它们并不那么容易混合。

ChatGPT 产生数据,而 WebRTC 使人们能够相互交流。WebRTC 中的 “生成 “部分是由人类负责的,他们主要是通过 WebRTC 进行互动。

一方面,这使得ChatGPT对WebRTC来说有点无用,或者至少在WebRTC中使用起来不是那么明显。

但另一方面,如果有人成功地正确破解了这个问题,他将拥有一个创新和独特的东西。

到目前为止,人们用 ChatGPT 和 WebRTC 做了什么?

在过去几个月里,看到人们和公司利用ChatGPT和WebRTC所做的事情是很有趣的。以下是我注意到的几件事:

  • Arin Sime 决定向ChatGPT 询问 WebRTC 的未来。很好,但并不是真正能让WebRTC和ChatGPT更多的相互融合的东西。
  • LiveKit 展示了如何将 ChatGPT 连接到实时 WebRTC 视频通话。其结果是令人难以置信的好——实际上是为ChatGPT提供了声音。
  • Twilio 展示了类似的东西——将 ChatGPT 连接到他们的可编程语音服务。稍微不那么引人注目但同样实用。
  • 然后是整个转录空间,你可以看到ChatGPT及其同类产品被用于从会议转录中生成摘要和行动项目。

在 LiveKit 和 Twilio 的例子中,其概念是将人类的音频源作为 ChatGPT 的提示的一部分,然后用语音转换为文本,再将 ChatGPT 的回应用文本转换为语音,并在对话中传回给人类。

扩大范围:生成式AI

ChatGPT是许多生成性人工智能服务中的一个。它的重点是文本。其他生成式人工智能解决方案处理图像或声音或视频或几乎任何其他需要生成的数据。

在过去的几个月里,我一直在使用MidJourney来帮助我在这个博客中创建许多图像。

今天,似乎在任何需要创建新数据或信息的领域,生成式人工智能算法都可以成为一个很好的研究对象。而用营销术语来说,人工智能被过度使用,需要一个新的被过度炒作的术语来解释什么是创新和前沿–所以 “生成式 “这个词被添加到人工智能中,以达到这个目的。

将生成式 AI 融入 RTC 世界

那么,如何将生成式 AI 技术与通信联系起来呢?这个问题的答案并不明显或简单。据我所知,你可以在 3 个主要领域使用 WebRTC(或仅 RTC)的生成式 AI:

  1. 对话和机器人
  2. 媒体压缩
  3. 媒体处理

这是什么意思👇

对话和机器人

在这个领域,我们要么与机器人进行对话,要么让机器人 “偷听 “对话。

前面的 LiveKit 和 Twilio 示例是关于与机器人进行对话的,就像你使用ChatGPT的提示一样。

窃听对话的机器人可以在整个会议期间或会议结束后提供帮助——

  • 它可以尝试捕捉会话的本质,将其转化为摘要
  • 帮助做笔记和写下行动项目
  • 在对话中找出额外的资源来分享,例如反映客户向呼叫中心代理抱怨的知识库项目。

正如我上面所说,这与 WebRTC 本身关系不大,它发生在管道的其他地方;对我来说,这主要是一种应用能力。

媒体压缩

人工智能开始被研究和使用的一个有趣领域是媒体压缩。我过去写过关于谷歌的人工智能语音编解码器Lyra 的文章。Lyra 对人类语音的声音和行为进行假设,以便在网络上发送更少的数据(有效地压缩),并让接收端使用机器学习找出并填补空白。这种方法可以被看作是生成性人工智能的一个案例吗?也许 在演讲者已知的情况下,调查这种方法可以更好地压缩他们的音频甚至视频,是否有意义?

整个超级分辨率的角度如何呢?你以WVGA或720p的分辨率发送视频,然后让解码器将它们放大到1080p 或 4K,在这个过程中几乎没有损失。我们正在凭空产生数据,尽管可能不是生成式 AI 的 “经典 “意义。

我还认为,如果你知道最初的原始内容是用生成性人工智能生成的,可能有一种更好的方法,可以压缩数据并以较低的比特率发送。这是值得追求或调查的事情吗?我不知道。

媒体处理

类似于我们可以有基于人工智能的编解码器,如Lyra,我们也可以使用人工智能算法来提高质量,更好的丢包隐蔽性,实时学习语音模式,然后在有丢包时模仿它们。这就是谷歌正在用他们的WaveNetEQ做的事情,这是我在2020年的相关文章中提到的。

在这里,主要的问题是,这其中有多少是生成式 AI ,而不是简单的 AI,这有什么关系吗?

WebRTC 的未来是生成式(AI)吗?

ChatGTP 和其他生成式 AI 服务正在迅速发展和演变。虽然 WebRTC 与这种趋势没有直接关系,但它肯定会受到它的影响:

  • 应用程序需要弄清楚如何(以及为什么)将生成式 AI 能与 WebRTC 结合起来,作为他们所提供服务的一部分。
  • WebRTC 中的算法和编解码器在 AI(生成的或其他方式)的帮助下不断发展

与其他任何人和企业一样,你也应该了解生成式 AI 是否以及如何影响你自己的计划。

本文转载自实时互动网,文章出处《ChatGPT遇上WebRTC:生成式AI对实时通信意味着什么》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/56427.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LLM应用专辑(3) — ChatGPT遇上文档搜索:ChatPDF、ChatWeb、DocumentQA等开源项目算法思想与源码解析

原文:LLM应用专辑(3) — ChatGPT遇上文档搜索:ChatPDF、ChatWeb、DocumentQA等开源项目算法思想与源码解析 - 知乎 公众号在上一篇文章中,我们介绍了chatgpt与nlp结合过程中的一些具体prompt生成方法,掌握这些可以有效地提升生产…

Android的img镜像文件打开

有时需要获取系统的一些资源,就需要打开img镜像文件;可以使用:ext2explore.exe.exe 此篇以打开Android API 22的system.img为例,system.img文件可以在sdk目录system-images文件下 eg: 相对路径:android-sdk-windows\s…

使用tp5写登录验证及修改密码

使用到的工具 1,thinkphp5.0自带的验证码: think-captcha 可查看&#xff1a; https://www.kancloud.cn/manual/thinkphp5/154295 2,前台页面框架: layui 3,引用到的文件: jquery.min.js layui.css 登录样式最终图形 登录的html <body style"background:#f2f2f2…

基于MATLAB的隐函数偏导与多重积分(附代码)

一. 隐函数的偏导数 给定隐函数&#xff1a; 隐函数的偏导可得&#xff1a; MATLAB格式&#xff1a; F-diff(f,xj)/diff(f,xi) 例题1 已知&#xff1a; 求&#xff1a; 解&#xff1a; MATLAB代码&#xff1a; clc;clear; syms x y; f(x^2-2*x)*exp(-x^2-y^2-x*y); prett…

Wolfram Alpha 算微积分指令集合

一、Wolfram Alpha介绍 Wolfram Alpha网址&#xff1a;https://www.wolframalpha.com/ WolframAlpha是开发计算数学应用软件的沃尔夫勒姆研究公司开发出的新一代的搜索引擎&#xff0c;能根据问题直接给出答案的网站&#xff0c;用户在搜索框键入需要查询的问题后&#xff0c…

利用MATLAB求符号微积分

文章目录 摘要1 符号函数的极限&#xff08;1&#xff09;极限&#xff08;2&#xff09;单边极限 2 符号函数的导数3 符号函数的积分&#xff08;1&#xff09;不定积分&#xff08;2&#xff09;定积分 结语 摘要 本文是《科学计算与MATLAB语言》专题七第2小节的学习笔记&am…

高等数值计算方法学习笔记第4章第一部分【数值积分(数值微分)】

高等数值计算方法学习笔记第4章第一部分【数值积分&#xff08;数值微分&#xff09;】 一、数值积分概论1.数值求积的基本思想(牛-莱公式找不到原函数&#xff0c;用矩形近似)2.代数精度的概念1.上述四个公式的代数精度&#xff08;梯形&#xff0c;左中右矩形公式&#xff09…

真的能从脑电信号识别出我的情绪吗?

关注“心仪脑”查看更多脑科学知识的分享。 提到情绪&#xff0c;我们脑海中可能会浮现出各种各样的场景&#xff0c;可能是“哭着&#xff0c;叫着&#xff0c;像个孩子在胡闹”的悲痛。 &#xff08;图片来源于网络&#xff09; 抑或是《Lie to me》中Cal Lightman深邃的一双…

读取大脑计算机软件,专访脑机接口专家Jose:读取大脑信息已成现实

腾讯科技 韩依民 11月7日报道 《生活大爆炸》中有一个经典的搞笑桥段&#xff1a;谢耳朵手摁太阳穴&#xff0c;幻想通过脑电波攻击室友。这一举动因荒诞不羁而产生喜剧效果&#xff0c;但是一种新的科学技术正在让谢耳朵的幻想部分变成现实。 利用捕捉器将人们脑子里进行的活动…

脑机接口猴子通过“意念”打游戏!马斯克:未来能让瘫痪者用意念玩手机

来源&#xff1a;新智元 它是Pager&#xff0c;一只9岁的恒河猴&#xff0c;来自Neuralink&#xff0c;最近它刚刚get了新技能——用意念玩乒乓球游戏。 6个星期前&#xff0c;Pager的脑袋里被植入了两个叫N1 Link的装置&#xff0c;工作人员用香蕉奶昔诱惑它玩游戏&#xff0c…

证明人脑细胞在体外也有感知,「盘中之脑」论文正式登Cell子刊

詹士 发自 凹非寺量子位 | 公众号 QbitAI 这有一个放在盘中的「大脑」&#xff0c;它以为自己是游戏角色&#xff0c;其活着的意义就是完成游戏任务。 有「黑客帝国」内味儿了&#xff1f;&#xff1f;&#xff1f; 现实中&#xff0c;这个盘中大脑有人做出来了&#xff0c;命名…

Hinton 最新访谈:不出五年,我们就会破解大脑的运作机制,但不是通过反向传播...

点击上方“视学算法”&#xff0c;选择加"星标"或“置顶” 重磅干货&#xff0c;第一时间送达 整理丨李梅、黄楠 来源丨AI科技评论 编辑丨极市平台 导读 过去十年&#xff0c;AI 在计算机视觉、语音识别、机器翻译、机器人、医学、计算生物学、蛋白质折叠预测等等领…

ChatGPT时代,如何训练大脑,以后不会被人工智能取代

当有一天&#xff0c;你的小孩子问我将来会不会被AI代替的时候&#xff0c;为人父母的我们应该怎么回答小孩子的问题呢&#xff1f;不知各位是否刷到一位名为浅爸谈英语的博主爸爸分享与他女儿关于AI对话的视频。 这段对话很有启发性&#xff0c;父亲的回答也很中肯。可以通过…

脑机接口照进现实:5位脑科学家带来的最新启示

大脑复杂、神秘&#xff0c;研究大脑被认为是人类终极的探索之一。作为最为复杂的科学探索领域&#xff0c;大脑的研究既令人着迷&#xff0c;也同样令人望而生畏。 脑机接口技术会使人类退化吗&#xff1f;一旦脑机接口技术得到应用&#xff0c;人类的自由意志会被他人操纵吗&…

马斯克脑机接口、BrainOS 相继发布,未来已来?

作者 | 马超 责编 | Carol 封图 | CSDN 下载自视觉中国 在北京时间的8月29日凌晨&#xff0c;钢铁侠埃隆马斯克投资1亿多美元的脑机接口初创公司公司Neuralink进行现场发布会&#xff0c;展示新一代的脑机接口设备。 这场发布会的热度可以和苹果iPhone4发布会相媲美&#xff0c…

脑科学真的可以启发AI吗?

智源导读&#xff1a;人工智能发展到当前阶段&#xff0c;大家都开始认识到脑科学和人工智能有很密切的关系&#xff0c;脑科学会对人工智能的发展产生很大帮助。反过来思考这个问题&#xff0c;脑科学对人工智能研究真的有帮助吗&#xff1f;离开脑科学之后&#xff0c;人工智…

Google员工说出了我不敢说的心里话!

前言&#xff1a;本文来自Beyond的投稿&#xff0c;码农翻身做了修改。 今天在Medium上看到一篇文章《The maze is in the mouse》&#xff0c;是一个刚从Google离职的员工写的&#xff0c;揭开了Google内部的各种问题&#xff0c;引发了很多人的共鸣&#xff0c;到目前为止&am…

RepVGG论文详解(结合代码)

目录 1.简介 2.RepVGG详情 2.1 RepVGG Block 2.2 结构重参数化 2.2.1融合Conv2d和BN&#xff0c;将三个分支上的卷积算子和BN算子都转化为卷积算子&#xff08;包括卷积核和偏置&#xff09; 2.2.2 将每个分支都扩充为一个3x3卷积核加一个偏置&#xff0c;然后进行相加融合…

MySQL如何支撑每秒百万QPS?

【编者按】本文主要介绍 PlanetScale 是如何通过 MySQL 的水平分片支撑每秒一百万个查询&#xff08;QPS&#xff09;的。 原文链接&#xff1a;https://planetscale.com/media/one-million-queries-per-second-with-mysql 未经允许&#xff0c;禁止转载&#xff01; 作者 | Jo…

用银联借记卡通过paypal支付美金

起了一个非常拗口的标题&#xff0c;意思是我要用关联了国内银联借记卡的paypal账户给国外网站支付费用&#xff0c;我直接在线就可以实现支付&#xff0c;不需要充值(paypal实际上是有充值付费这个流程的&#xff0c;只是我们没有感觉到)等一系列操作&#xff0c;也是非常的方…