对话钉钉音视频专家冯津伟:大模型不是万能的

1e5a07e6e6ae2b33a54ba3d44212e232.jpeg

策划:LiveVideoStack

在音视频技术领域,ICASSP 大会是行业的风向标会议,也是语音学界从业者研究下一代技术发展的盛宴。近期,国内外各大企业陆陆续续放出论文入顶会的消息,钉钉蜂鸣鸟音频实验室 2 篇论文也登上了 ICASSP2023。

其中,实验室提出了“用一个 AI 模型同时消除回声、噪音和混响三种干扰音”的新研究,可以使得计算量和带宽更节省,延迟更低,同时音质效果也更好。这一项研究到底能解决什么问题,实现什么效果,用在哪些场景,是我们非常感兴趣的。

此外,随着 AIGC 技术的到来,每个行业都在面临着一场人机交互体验的变革。大模型的发展,对音视频领域到底有什么影响,是我们所关注的另一项重点。基于这两重因素,我们最近也和国内音视频领域的专家,钉钉蜂鸣鸟实验室负责人冯津伟博士做了一些沟通。

在与冯津伟交谈的过程中,我们了解到他们团队不仅把自研的 AI 模型用在了降噪、回声消除和去混响中,目前已落地于钉钉会议软件、Rooms 和钉钉会议一体机 F1/F2 上,并且在技术开放的过程中,他们还原创了一种麦克风阵列技术,用以解决线下开会坐得太远听不清的问题,引起了业内广泛关注。

在谈到 AIGC 及未来的技术革命时,冯津伟表示目前 AIGC 对行业的冲击还没那么大,一是大模型暂时对音视频的实时性缺乏有效的解决方案;二是不同于 AIGC 的推理和生成能力,在声学、底层算法层面更注重用 AI “还原真实” ,将采集到的音视频信息尽量还原成如同线下开会的临场感,比如解决音频处理的三大难题——回声消除、降噪和去混响。

在冯津伟看来,蜂鸣鸟实验室的定位,是既能在大模型的赛道中结合应用场景做落地,比如会议的智能摘要,同时,又是一个擅长工程化的团队,能研发从声学原理、信号处理到软硬件产品全流程的技术。这些技术和 AI 相关,但又不是大模型。“以深度学习为代表的 AI 技术的发展与成熟,会对音视频关键技术的突破提供新的方向。那些传统技术无法解决的问题,可以通过与 AI 的融合降低问题解决的难度,比如 AI 降噪。”冯津伟说,这也是钉钉会议在底层技术上的探索方向。

本文由 LiveVideoStack 和冯津伟的对话整理而成,以下经整理后有删减。

一、AI 的到来,给音视频行业注入哪些新惊喜?平行云与元宇宙

  1.  LiveVideoStack:你如何看待当下爆火的 ChatGPT、大模型、AIGC 等新兴概念与技术?

冯津伟:首先我们要肯定 AIGC 带来的价值,不同于元宇宙的一阵风,AIGC 能给许多行业带来真正的价值,例如帮助文案人员提升创作效率。现在 AI 已具备了初步的通用人工智能 AGI,这是与以前质的区别。

虽然人类目前还只具有初步的通用人工智能,但技术的发展不是线性的,而是跳跃性的。大家经常说奇异年和奇异点,爱因斯坦的 1905 年就是一次技术奇异年,用上帝视角来看的话,这两年我们可能正处于技术奇异年之中。

回到音视频行业,我觉得目前 AIGC 对它的冲击还没那么大。

第一,影响肯定有,钉钉也在探索应用场景,比如会议摘要,大模型嵌入音视频之后最直接的一项改变就是对会议内容的提取、总结。

第二,大模型暂时对音视频的实时性缺乏有效的解决方案,音视频应用能接受的延迟是几十毫秒或最多两百毫秒,要求很高。音频算法处理是一帧一帧(例如帧长为10毫秒)的,即流式处理,这就要求每一帧数据必须在10毫秒内处理完毕,把处理后的数据发送到音视频系统的下一个模块后,继续处理下一个10毫秒的数据,周而复始,但目前的 AIGC 显然还没有这样的流式处理能力来支撑。

第三,在声学、底层算法层面,大模型它目前的擅长的是检索、推理和生成,但在音视频应用里,更注重用 AI “还原真实” ,要实现线上开会达到和线下开会一样的“临场感”,比如我们用 AI 模型解决音频处理的三大难题——回声消除、降噪和去混响,即智能 3A 算法。

我们会持续关注,可能在某个时候,技术奇异点就会带来意想不到的应用。

  1. LiveVideoStack:你刚刚聊到 3A 算法,这次有一篇入选的顶会论文讲的也是这个话题,在你们的研究发现下,传统算法和 AI 算法有什么最大不同?这项技术是否落到了你们的产品里?

冯津伟:我们这次有一篇论文讲的是《实时全带语音通信中深度窄带网络用于回声,噪音和混响的联合消除》,背后其实我们做的是一个“一模型,多任务”的研究。这项研究是用来验证 AI 有能力做到一个模型同时处理这三种干扰音这件事的,这也符合在 AI 领域里多任务学习更能学到通用表达, 提高泛化能力的共识。

之前技术大多都是分开来处理回声、噪音和混响这三种干扰音,每个单独模块在计算量累加,算法延迟累加的同时,还容易导致鲁棒性下降,无法对音频链路进行全局优化。

我们的实验表明,在三个公开的测试集里,相比于 state-of-the-art 专门用于子任务的模型,我们的模型在远端单讲场景下效果提升 57%,双讲场景下提升9%,去噪和去混响后语音质量提升5%和8%,部分研究成果也已经落地到了我们的产品上。

我觉得传统算法和 AI 算法的不同在于对数据建模的不同路径,一个是基于数学解析表达式的相对简单的建模,如高斯分布等,对于较吻合的场景比如稳态噪音信号,传统算法处理效果还是可以的;另一个是data driven的建模,深度学习强大的建模能力使得 AI 算法能处理更复杂场景下的任务,尤其是当训练数据足够丰富的情况下,这也是目前 AI 算法在效果上有一个质的提升的原因,如非稳态噪声的去除,时延抖动下的回声消除。传统方法一般计算量比较小,可解释性好,我认为这两个途径也是互补的。

目前我们正在对这项技术做扩展性研究,比如消除在工位场景下同事说话产生的背景干扰音,这也是目前会议软件的痛点之一,还有把所有的算法都放进同一框架中,以节省计算量、降低延迟等等。

  1. LiveVideoStack:那你怎么看待两种 AI 之间的关系,及你们接下来的投入计划?

冯津伟:我觉得这两种 AI 并不互斥,一个是在应用层的智能化探索,另一个是在专业场景下对底层技术的支撑。

目前 AI 在音视频里面我觉得一个比较重要的应用,也是我们今年已经落地的一个应用,就是会议摘要或者总结。我们这次5月底的钉钉斜杠“/”邀测,也包括了这项能力,它可以帮你生成逐字速记,还可以自动分章节、分议题生成摘要与待办。这样一来,两三个小时的超长会议,浏览一下智能纪要 3 分钟就能看完了。 

这些 AI 的场景能力,比如转写、摘要与音频 3A 技术(去混响、噪音、回声)并不互斥。3A 技术对上面讲到的场景是强有力的底层技术支撑的,声音更清晰后内容识别也会更准确。所以即便是 AIGC 来了,这些底层技术还是要去持续优化、攻坚的,还是要持续投入资源。

另外,AI 技术在音频中还有非常多的潜在应用,例如,无参考音质评估、Personalized SE、NetEQ、LPC和音频超分技术等。AI 技术也能解决一些传统方法解决不了的问题,例如,网络延时抖动时或者设备移动时产生的回波。我们希望通过这一系列的工作能够真正帮助用户做到信息无障碍的交流,这也是我们认为技术最有价值的部分。

二、技术路线和开放策略的独特性

  1. LiveVideoStack:你们的技术路线听起来跟其他的公司不太一样,你怎么看待商业公司里面做技术这个话题,以及你们这两年有没有一些实例?

冯津伟:蜂鸣鸟音频实验室的工作是以产品为导向的,新技术的研发要以落地产品为目标,新技术的立项也是以解决用户问题为目的的。

作为一家商业公司与技术公司,产品必须要有竞争力,才具备商业化的基础,所以我们工作的大部分时间都专注于产品。我们的另一部分工作,则是希望能够深入打磨技术,研发“领先市场半步到一步”的技术,而不是只做基础理论研究,理论研究是大学实验室或者政府研究所做的事情,是他们的定位。

自实验室成立以来,还是有很多实际进展的。比如,我们把人工智能技术引入到了整个音频链路中,让 AI 模型不仅仅用在降噪、去回声和去混响上,也在研究如何用于丢包补偿,音频超分和编解码器。

目前,钉钉自研的 AI 降噪算法已经落地,将会陆续应用到钉钉会议的各个产品形态中,这也是行业内首家落地全带语音 AI 降噪的会议平台。到目前为止,国内外会议软件只有钉钉与 Google Meet 是使用全带语音通讯的,但 Google Meet 还没有做 AI 降噪。

钉钉自研降噪算法的技术特点是降噪量大、计算量小,但语音保真度高。降噪的同时对语音造成损伤是目前市面上几乎所有 AI 降噪技术都存在的问题,所以我们在算法设计时尽可能地对语音成分进行了保护。

此外,我们研发了一个创新性的会议设备转移技术,来提升会议室开会的便捷性。设想一下,你一开始是用手机入会的,当你到会议室时,你不需要再在会议室设备上输入冗长的会议码入会,你只要在你手机上点一下 button,会议就自动转移到了会议室设备上去了。

第三,在打磨产品体验的过程,我们团队还提出了一种原创的麦克风阵列技术,在 INTERSPEECH 和 ICASSP 发表了系列论文后,有多篇论文在 follow 我们的研究。目前,这一技术也落地到了我们的硬件产品会议一体机 F2 中,同时还开放给了生态伙伴。一家国际知名品牌经过严格测试后,决定与我们进行深度合作,目前他们的产品将很快上市。

  1. LiveVideoStack:那在用技术支撑产品的过程中,比如这次把 AI 降噪落地产品的经历里,有没有痛苦的回忆?

冯津伟:有,实际上既有成功的经验,也有痛苦的回忆。

成功的经验,例如,我们视频会议一体机 F1 这个产品从0开始在6个月内就全面推向了市场,目前的市场占比大概是1/3,非常成功,这是技术和产品、和业务团队无缝合作的结果。

大家都知道,研究并不能保证一定出成果,它本身具有很大的不确定性。这次 AI 降噪落地产品其实也有些曲折,在前期阶段的效果不明显,大家都怀疑是不是方向错了。后来,团队没放弃,不断地做数据和网络框架的改进,终于得到了一个满意的结果。这个结果,我们也跟国内外的竞品做了对比,降噪效果是能进入行业第一梯队的。

当然也有一些遗憾的事情,我们做技术的,有时经过一段时间的研究努力有了成果,但出于各种原因,最终没有产品化,这会让我们感到遗憾,因为我们希望我们的技术能让更多用户从中受益。

  1. LiveVideoStack:在后来,这些技术成功落地后,开放给了哪些行业合作伙伴,他们的评价是什么?有没有让你记忆深刻的?

冯津伟:开放给了许多生态伙伴,比如罗技、英特尔、联想都在使用我们的算法和模组。

特别是去年8月,我们给影石 Insta360 开放了整套的算法与工程化方案,他们对我们的远距离拾音、智能降噪、声源定位技术都非常满意。我们希望通过算法能力和技术模组的开放,让更多产业链中的伙伴可以快速复用,实现设备的智能化升级。

顺便提一下,我们对生态伙伴还提供了一套完整的兜底服务,提供驻场服务,并通过行业高级认证的评测,确保伙伴的产品性能达到设计预期,这也是我们在生态合作上一个差异化的地方。

一些生态伙伴在了解完我们的技术和服务模式后,果断选择跟钉钉会议合作,还有一些客户慕名而来,在技术上无条件信任我们,这些案例让我印象很深。

  1. LiveVideoStack:最后一个问题,技术再牛逼也不能闭门造车,作为技术人,你是怎么看技术、产品与商业的关系的?

冯津伟:我认为,技术只是商业成功的必要条件,不是充分条件,这在历史上有很多案例。

第一,技术公司的技术一定要有先进性,才能赢得市场,因为许多技术行业的一个特点是赢者通吃,即 winner takes it all。芯片行业就是一个很好的例子,头部就那么一两家,技术发展又是日新月异的,所以我们做技术研发的同学也时常会有危机感。

第二,做技术还有一个聚焦和专注的问题,因为技术资源永远都是有限的,需求永远都做不完。站在我的角度,对于技术产品体验上的专注是最重要的,但这种专注并不是技术人闭门造车,还是要结合整个钉钉、以及钉钉音视频事业部的战略,再结合客户真正的需求痛点,了解哪些是主线、哪些影响本质。这一层的东西,是需要做深做透的。

最后,冯津伟还和我们分享了他最近看的《半导体简史》,或是深受书中技术发展史的启发,他向我们描绘了自己对于音视频行业的畅想蓝图。

1d166436e4219e70ba531c4dba6bc716.png

扫描图中二维码或点击“阅读原文 

查看更多LiveVideoStackCon 2023上海站精彩话题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/53926.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT颠覆者来了!Auto-GPT强在哪?

ChatGPT自诞生以来,一直备受关注,人们感受到了人工智能的强大。 现在,一个更加强大的人工智能应用已经登场——Auto-GPT。 Auto-GPT的一大突破是,可以让AI自我提示,就是说,这个AI完全不需要咱们人类了。 什…

每日一皮:每天到公司 VS 工作一小时后

往期推荐 每日一皮:都 0202 年了,我怎么可能被骗呢? 每日一皮:用户“这个项目很容易嘛”~ 每日一皮:客户期望 vs 最终产品 每日一皮:入职新公司第一周的感受... 每日一皮:小公司搞中…

XXXX直聘聊天机器人

XXXX直聘聊天机器人 想转岗到爬虫工程师,由于面试机会太少,而boss直聘又无法海投,决定做一个boss直聘机器人来帮我找工作。 一、基本需求 一个爬虫程序爬取需要的工作信息,存入数据库。 聊天机器人每天上午10点向未聊天的boss打…

每天加班的HR,时间都浪费在了这些琐事上?

编者按:随着无纸化办公的引入,为企业办公免去了非常多的成本浪费,那么OA系统是如何为无纸化办公助力的呢?让我们一起往下看。 HR每天的工作离不开招聘、员工入转调离信息、出勤排班、薪酬和工资单、绩效福利、培训、休假管理等等。…

一位程序员的一天工作清单:5:30下班,5:30起床

分享职场程序员生活、职场攻略、领导同事相处技巧和创业资源 文|洪生鹏 曾发布了一篇《一位程序员的一天清单》文章,简单描述了一位程序员了的一天日程安排。 文章发布后,得到了广大读者的欢迎,其中读者们的留言最为精彩了,比文章…

工作日志day01

1.No matching distribution found for virtualenv 查询了好多资料,最终找到问题所在: 2.根据上述果然报错ping: www.baidu.com: Temporary failure in name resolution 解决: 最终成功下载虚拟环境 3.cuda编程问题:根据代码运行环…

【第188期】游戏文案策划:薪水低、压力大,升职无望,怎么办?

我是酱油,这是第188期文章 收到一位想匿名的同学留言: 酱油哥,我已经入行两年,在一个平平无奇的小游戏公司打转。因为职场的高度,也完全限制了我的职场眼界,所以想向你请教一下,游戏文案的职场…

你10点钟还在做报表?套用模板,让你提前下班3小时

最近听到一个朋友向我抱怨,他们是一家主营餐饮的传统公司,已经线下开了好几家门店了,今年还打算再开六家。但是发现随着门店数量的增长,加上现在外卖业务的集中发力,线上线下业务数据无法打通,其传统的运营…

天选打工人春节兼职记

一、python爬虫是可以做副业的,主要是爬取网站、小程序或者APP的数据,对数据进行分析与处理,或者直接向客户提供爬虫程序与技术支持。 当初学会Python那会儿,有朋友来介绍我去接私活,是为一家公司做网站,那…

程序员10个月接了30个私活单子,晒出收入,让大家意想不到

现如今,相信很多职场朋友都非常羡慕程序员的高薪工作吧,很多学习计算机专业的大学生,他们在毕业以后,往往通过自己的专业就能找到互联网公司的高薪工作,而作为一名程序员,他们的工作压力还是非常大的&#…

“摸鱼”的打工人,“累死”了同事

文/韩滢 来源/连线Insight 一纸处罚,打破了打工人手中“金鱼缸”的平静。 近期,一份国美集团《关于违反员工行为规范的处罚通报》在职场人的圈子里流传开来,国美处罚员工摸鱼事件也引起了众多讨论。在国美的这张处罚表里,详细…

IT = 加班多?外国小哥打破“魔咒”:“每天工作 10 分钟,工资近 9 万美元”

相信在许多人印象中,凡是与 IT 沾边的工作似乎都逃不开“加班”二字:“加班狂”、“过度劳累”等标签令许多站在 IT 行业门口的人望而却步。 但上周,国外社交网站 Reddit 上有一则帖子突然爆火:“一年多前,我把我的工…

某百度程序员:每天十点上班,午休两小时,每天闲逛,晚上八点就下班!

请点击上面  一键关注! 互联网公司一向以加班和996著称,大家说起来都是一把辛酸泪。如果有人说他所在的公司可以养老,你信不信? 一个百度员工发帖爆料自己的职场生活:10点上班,中午休息两个小时&#xff…

ESP32接入米家-小爱同学-IDF环境-巴法平台

0 引言 冬天床边没有开关,睡觉懒得关灯,想通过小爱同学控制灯的开关,但是不想换开关。 所以 想用ESP32接入米家,控制一个舵机实现开关控制。 文章目录 0 引言1 MQTT协议2 ESP32 MQTT例程2.1 ESP-MQTT 库2.2.1 配置结构体 esp_mq…

AI新势力 claude,国内支持访问,跟我一起用起来吧

ChatGPT已经火的没边了,但是最近出来了一个claude也不容小觑,而且只要注册过谷歌账户,就可以不用挂梯子,直接可以访问,是不是很好? 那我们来看一下效果吧 真是非常的给力,据说可以媲美chatGPT3…

OpenAI推出新业务模式:售卖Model instance

文|张向前源|分布式实验室 OpenAI的新业务模式,卖Model instance,起价26万4千美元一年。 这个Model instance的好处是它完全归属于你,你可以按照自己的要求,对它进行有针对的微调,使它具备你需要…

「Bug」解决办法:Could not switchto this profil,无法使用节点的解决方法,彻底解决

♥️作者:白日参商 🤵‍♂️个人主页:白日参商主页 ♥️坚持分析平时学习到的项目以及学习到的软件开发知识,和大家一起努力呀!!! 🎈🎈加油! 加油&#xff01…

同花顺_代码解析_技术指标_L

本文通过对同花顺中现成代码进行解析,用以了解同花顺相关策略设计的思想 目录 LH_LYDG LH_猎鹰歼狐 LHBLX LHSJ LHTZ LHXJ LH猎狐雷达 LOF净值 LWR LH_LYDG 猎鹰渡关(检测大盘顶部) 指标用法: (1&#xff…

chatgpt赋能python:Python自动发送信息:提高效率,解放双手

Python自动发送信息:提高效率,解放双手 作为一位有10年python编程经验的工程师,我深深体会到了Python带来的效率提升和工作上的便捷。Python的应用场景广泛,其中自动发送信息也是其优秀的应用之一。本文将介绍Python自动发送信息…

AD中画圆弧形板框的方法

在实际的板框设计中,有时为了生产需要,不得不需要将PCB板设计成四角需要倒角的形式,经过实际的摸索,现在得出一种画圆形板框的小技巧。 现在需要将板框设计成3.5mm半径样式。 (1)将板子原点定位至左下角。 …