音视频技术开发周刊 | 296

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

cec3cb28dd211ca765764139d2ee8749.png

22字声明、近400名专家签署、AI教父Hinton与OpenAI CEO领头预警:AI可能灭绝人类!

这份声明一经发布,便迅速得到了多伦多大学计算机科学荣誉教授、“AI教父” Geoffrey Hinton,图灵奖得主 Yoshua Bengio,Google Deepmind CEO Demis Hassabis,OpenAI CEO Sam Altman,以及中国科学院自动化研究所类脑认知智能实验室主任、教授曾毅等近 400 位学术界、产业界、高校专家的支持。

Niantic发布首个混合现实AI虚拟助手体验Wol,用户能够和它进行有意义的对话

Wol是一个猫头鹰形象的AI助手,也正是具备了人工智能能力,Wol能够和玩家一起就虚拟场景中的植物、生物等其他内容进行有意义的对话。在某种意义上,这种体验也可以被看作是一种教育学习的场景。BTW,它是由Pokemon GO开发商Niantic推出的。

评估文生图的人类偏好

自动评估文生图内容的人类偏好,对于指导文生图模型的训练和微调有重大意义。

使用生成式AI改进极端多标签分类

极端多标签分类是指在一个问题中有大量的标签需要预测(例如新闻推荐和商品推荐)的场景。作者提出了一种生成式多标签分类模型(简称GMCL),该模型使用变分自编码器和贝叶斯逻辑回归相结合的方式进行标签预测。结果表明,在性能方面GMCL优于传统的机器学习算法,并且具有更好的泛化能力。

https://www.amazon.science/blog/using-generative-ai-to-improve-extreme-multilabel-classification

Nvidia定制化语音AI提高电信行业客户体验

文章介绍了Nvidia的定制化语音AI解决方案的特点和优势,包括高精度语音识别、多语言支持、高可靠性、快速部署等等。

https://developer.nvidia.com/blog/enhancing-customer-experience-in-telecom-with-nvidia-customized-speech-ai/

dbf0c18657d10c35e89b9a303ff405c9.png

人人能打造类ChatGPT“对话搜索引擎”,Vectara获得2亿元融资

Vectara提供了类ChatGPT对话式服务,用户可以将PDF、Word、PPT、RTF等文件数据上传至Vectara平台中,构建数据搜索引擎。目前,Vectara已经全面开放,注册即可使用。

开源地址:https://github.com/vectara/vectara-answer

你可以用 Twilio 和 Langchain Prompt Templates 生成一个篮球短信聊天机器人

这个机器人可以回答用户关于篮球比赛的问题,并提供有关球员、比分和比赛时间等方面的信息。同时,你也可以跟它互动。

https://www.twilio.com/blog/basketball-sms-chatbot-with-langchain-prompt-templates

973255796500e7ba7cd5858b68cdc802.png

英伟达市值破万亿美元,GPU龙头的称霸之路

对于英伟达乃至整个芯片产业来说,5月30日都是一个值得被铭记的日子。因为乘着这波ChatGPT带来的芯片热潮,英伟达市值首度突破一万亿美元。

未来十年的芯片路线图

e3e4724a7b6845bb4c20cfd2f9bda0fa.png

打造音视频极致消费体验

LiveVideoStackCon 2022北京站邀请到快手播放技术中心负责人苍鹏为我们分享快手如何打造极致的音视频消费体验。 

哔哩哔哩视频云画质与窄带高清AI落地实践

LiveVideoStackCon 2022 北京站邀请了Bilibili云端多媒体平台的成超老师,为我们分享Bilibili在急速发展过程中基于视频业务上总结的一些先进的经验和想法 。

直播互动开放技术探索之路

本文主要介绍Bilibili直播技术团队在互动开放生态演进道路上的经验与思考。 

音视频问题汇总--SDP和编码参数

b8065104ed924534e74324a8389c4106.png

在声学仿真中如何简化边界条件设置 

在开发新产品或新功能时,首先需要了解其功能特性。当借助数值仿真来预测性能时,必须非常详细地构建关键组件、设置测试和边界条件,才能保证预测的可靠性和准确性。然而,大多数工程师更倾向于将精力集中在关键组件,而不是“无关”的边界条件。COMSOL Multiphysics 声学模块中内置的阻抗边界条件可以帮助工程师实现这一点。

使用 Laravel Tall Stack 和 Twilio 可编程语音构建一个简单的呼叫中心

本文介绍了如何使用Twilio可编程语音API和Laravel TALL堆栈构建一个简单的呼叫中心。文章中详细介绍了如何使用Tailwind CSS和Alpine.js创建呼叫中心的前端部分。使用Livewire,可以在不刷新页面的情况下更新UI,并实现动态呼叫控制和状态显示等功能。

https://www.twilio.com/blog/build-simple-call-center-laravel-tall-stack-twilio-programmable-voice

6d24e42c926a488b4a9eedda5937fff9.png

扩散视频自编码器:通过解纠缠视频编码实现具有时序一致的人脸视频编辑

本文提出了一种基于扩散自编码器的新型人脸视频编辑框架,该框架可以成功地提取分解的特征:来自给定视频的身份(identity)和运动(motion)。这种建模允许通过简单地朝着希望的方向操纵时间不变的特征来编辑视频,同时保留时序上的一致性。

85b252fa34cde97ed9f7aacb0aad3f72.png

MR 眼镜的「曲面」设计,难倒了无所不能的苹果

为了探究第一代苹果头显难产的缘由,The information 作者 Wayne Ma 采访了多个前苹果头显团队成员、制造商和产业链人士,分析了当下苹果头显制造的主要难点。

5f4dd70a1abc25878e0c54a893fb5352.png

6 月 6 日,WWDC23 码住你时间

本届活动将在北京时间 6 月 6 日凌晨 1 点开始,届时外界关注已久的苹果第一代头显设备即将发布。网友也在放出的活动预告中找到了「隐藏彩蛋」:「VR headset unveiled at WWDC」,翻译为「VR 头显将在 WWDC 揭晓」。

ac2584ada412aad681a422ff717c52bf.jpeg

三维重建 3D reconstruction 有哪些实用算法?

0e5acfcb1458ea1e9b4944186cbc7a72.png

Meta Quest 3:苹果头显的最大竞争对手

https://www.bloomberg.com/news/newsletters/2023-05-28/meta-quest-3-real-life-hands-on-how-it-compares-to-apple-mixed-reality-headset-li7h3suy

触觉反馈手环:打开虚拟现实感知的钥匙 

科研人员提出了一种新颖的多感官方法,设计一种可穿戴的触觉手环,它在手腕周围提供连续的径向挤压力,加上分布式振动提示,以传达手和指尖预期的感觉、力和瞬变。与仅视觉反馈相比,在手腕处包含连续挤压提示有可能增强用户的触觉体验,带来更完整、沉浸的虚拟现实体验。

https://onlinelibrary.wiley.com/doi/10.1002/aisy.202200303

50499ec607071eefff5d49c620b3ba1c.png

使用 Microvisor 架构实现面向未来的、无供应商锁定的 IoT 连接

作者认为,许多IoT设备在硬件和软件方面都存在锁定问题,这会带来一系列问题,例如缺乏灵活性、安全风险以及高昂的成本。因此,作者提出了使用微观处理器架构来解决这些问题的方法。

https://www.twilio.com/blog/achieving-no-iot-vendor-lockin-with-a-microvisor-architecture

d1125ea54bc106521d21d6a142cc9a5a.png

Tambur:将 streaming codes 应用视频会议场景进行丢包恢复

突发丢包在实际中经常出现,可以通过一类新理论FEC方案称为 “流码”(streaming codes,是 convolutional codes 的一类)来更好地恢复丢包,该方案能够显著减少冗余来实现对突发丢包的恢复。



d8d702eafb1e3bc82ac42deeb1745bd8.png

扫描图中二维码或点击“阅读原文 

查看更多LiveVideoStackCon 2023上海站精彩话题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3965.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

青云科技财务负责人、核心技术人员相继离职;作业帮正在内测大模型;OpenAI月活用户数量超8亿丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 新媒股份与科大讯飞共同成立元宇宙XR联合创新实验室 近日,广东南方新媒体股份有限公司(以下简称“新媒股份”)与科大讯飞股份有限公司(以下简称“科大讯飞”&…

美国新闻集团拟起诉微软谷歌OpenAI;大厂核心技术人员开启创业潮;京东云首次发布数智平台“优加”丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 美国新闻集团拟起诉微软谷歌OpenAI 自ChatGPT风靡全球后,AI版权问题就成为近来国外争论不休的一个焦点。据报道,AI技术的发展已经引发了新闻出版业的不满,他们认为自己的内容…

OpenAI创始人的Web3愿景:Worldcoin打造AI数字通行证

摘要 以Chatgpt为代表的人工智能的能力正在迅速接近人类,并且已经在许多利基领域超越了人类。越来越强大的模型似乎越来越超出人控制的可能, AI既可以助人,也存在“鸠占鹊巢”挤占人类的存在空间和利益,甚至不排除AI作恶的可能。在…

现在就是成为“新程序员”的黄金时刻!

整理 | 王启隆 出品 | CSDN(ID:CSDNnews) “自然语言代替了编程语言,大大地降低了程序员的门槛。现在,ChatGPT 将全球的知识库和代码都放在了你的手中,只要有想象力,人人都能成为「新程序员」。…

ChatGPT 爆火的背后:深度解读“智能对话”与“人机交互”技术

图灵人工智能 作者 | 鲁冬雪 智能对话技术在近几年来取得了惊人的进步,最近爆火的 ChatGPT 更是将智能对话推到了至高潮。像 ChatGPT 这样的聊天机器人有着广泛的用途,然而想要让其达到真正的智能水平,还有很多挑战需要克服,比…

图灵逝世 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 6 月 7 日,在 1742 年的今天,普鲁士数学家克里斯蒂安哥德巴赫在写给瑞士数学家莱昂哈德欧拉的通信中,提出了以下的猜想&…

苹果今年或无法推出M3芯片;​微软将推私有版ChatGPT:价格是常规版10倍;sudo和su用Rust重写|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

大白话说ChatGPT

ChatGPT是如何流行的? 在经历了2016年,由AlphGo击败李世石而掀起的AI浪潮后,AI行业沉寂良久,上一波浪潮里起来的AI算法公司,在硬件化和数据的泥沼里寻找出路,这么多年,AI行业太需要一个现象级的…

论文版「ChatGPT」来了!看论文问问题可同时进行,网友:看文献更省时了|开源...

Pine 发自 凹非寺量子位 | 公众号 QbitAI 科研人员福音!专门和论文对话的“ChatGPT”来了。 懒得看论文?没关系,直接让这个工具帮你看,有什么问题直接问它就好了。 而你全程要做的就只有上传论文和问问题。 但又感觉心里没谱&…

AI帮忙做论文笔记——高端Prompt技巧——chatGPT时代背景下文献阅读新范式

之前读文献坑: 这样读文献是单个的,没有成体系。 正确的应该是先画个总的思维导图(通过chatGPT ,返回的TXT自动转思维导图) 然后每读一篇文献,就在总的导图上修修补补。 新范式步骤 1 和GPT要个基础的大纲。作为认知底座,主要 包含3w。 例如,以精准教学为例,向chat…

ChatGPT有趣测试(ChatGPT课表安排)

我的问题: 有4名教师分别是:唐僧,孙悟空,猪八戒, 沙悟净。他们四位老师要给两个班级(class1,class2) 授课。分别是唐僧(咒语概论),孙悟空&#x…

图灵测试还重要吗?

撰文丨Harry Collins(卡迪夫大学社会学教授) 来源丨原理(ID:principia1687) 1 我们正在步入人工智能时代。随着人工智能程序越来越擅长像人类般行事,我们也越来越多地面临这样一个问题:人类的智…

图灵测试与人工智能

什么是图灵测试? 在一篇1950年发表的著名论文《Computing Machinery and Intelligence》中,数学家阿兰图灵详细讨论了“机器能否拥有智能?”的问题。有趣的是,作为计算机科学与人工智能领域共同的先驱,图灵成功定义了…

软件测试/测试开发丨ChatGPT训练营来,手把手带你玩转ChatGPT

ChatGPT的出现为测试行业带来了新的机遇和挑战。尽管许多人担心它的强大可能会取代测试人员,但实际上ChatGPT可以成为测试人员的强大助手,提高测试工作的效率和准确性。那么,我们应该如何借助 ChatGPT,让我们的测试工作更高效呢&a…

改bug神器ChatGPT AI测试将取代人工吗?

最近ChatGPT大火,各大论坛中都会出现它的关键词。 机器和人对话本不是什么新鲜事,而ChatGPT上线仅5天,用户数量就超百万,之所以能在短时间吸引到这么多用户尝鲜,是因为它比“人工智障”的AI前辈们聪明多了~ 玩了一会…

一个故意不通过图灵测试的人工智能

一个故意不通过图灵测试的人工智能 人工智能很可能导致人类的永生或者灭绝,而这一切很可能在我们的有生之年发生。 上面这句话不是危言耸听,请耐心的看完本文再发表意见。这篇翻译稿翻译完一共三万五千字,我从上星期开始翻,熬了好…

Google AI真的通过了图灵测试?还是图灵测试已经过时?

作者 | 阿司匹林 出品 | AI科技大本营(公众号ID:rgznai100) 本月初的时候,Google 在一年一度的开发者大会上大秀肌肉,其中最引人瞩目的当属 Google Duplex(全双工)技术。基于这种技术的 Google …

图灵测试是人工智能的标准吗?

来源:赛先生 编者按 科学就是一个可以被证伪的学说。任何一个科学论述,都要能够被实验检验。比如说,要科学地解释定义什么是自我意识,其本质就是设计一个实验。比如观察动物在镜子里看到自己时候的行为,是寻找镜子后面…

ChatGPT到底有多聪明?我测试了ChatGPT的数学能力

来源:AI前线 译者:马可薇 人人都听说过最新,也是最复杂的聊天机器人 chatGPT。而众所周知,它在英文文学等“软话题”方面甚是熟练,所以我决定测试它在数学这类“硬话题”方面的表现。你可能不知道,但我是…

什么是图灵测试?

图灵测试一词来源于计算机科学和密码学的先驱阿兰麦席森图灵写于1950年的一篇论文《计算机器与智能》。阿兰麦席森图灵1950年设计出这个测试,其内容是,如果电脑能在5分钟内回答由人类测试者提出的一系列问题,且其超过30%的回答让测试者误认为…