音视频技术开发周刊 | 325

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

cf73ca108978f381c3b627b8b2d1524f.png

AI读心术震撼登顶会!模型翻译脑电波,人类思想被投屏|NeurIPS 2023

在最近举办的NeurIPS大会上,研究人员展示了当代AI更震撼的应用场景——AI读心术!

OpenAI「登月计划」剑指超级AI!LeCun提出AGI之路七阶段,打造世界模型是首位

OpenAI「登月计划」笃定了超级人工智能必定会到来,甚至近在眼前。而在LeCun看来,实现AGI还很遥远,打造出世界模型仅是这第一步。

AI首次攻克难倒陶哲轩数学难题,DeepMind里程碑算法登Nature!LLM搜代码自我进化

困扰数学家多年、让陶哲轩直呼喜欢的上限集问题数学难题,竟然被DeepMind的新算法破解了?这是史上首个用LLM发现的算法,堪称里程碑级研究,一经发布立马登Nature。

c2a8785717c948527bf305d823efd171.png

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

2023 年底,科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频生成。谷歌提出的视频生成大模型上线,立刻获得了人们的关注。这款名为 VideoPoet 的大语言模型,被人们认为是革命性的 zero-shot 视频生成工具。

NeurIPS 2023 Spotlight | 腾讯AI Lab绝悟新突破:在星际2灵活策略应对职业选手

近日,腾讯 AI Lab 的游戏 AI 团队宣布了其决策智能 AI "绝悟" 在《星际争霸 2》中的最新研究进展,提出一种创新的训练方法显著提升了 AI 的局内策略应变能力,使其在考虑了 APM 公平的对战环境中,与 3 位国内顶尖的神族职业选手各进行多达 20 局神族 vs 神族的对战,稳定地保持 50% 及以上的胜率。该成果已获 NeurIPS 2023 Spotlight 论文收录。

卷生成式AI的旗舰手机,2024年会引发一场交互革命

最近,各家手机厂商都在不约而同地做着一件事:把生成式 AI 搬上手机。先是在 10 月份的骁龙峰会上,小米放出消息,能在手机端侧运行的 60 亿参数大模型。

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

文生视频可以精细到什么程度?最近,阿里巴巴的一项研究给出了答案:1280×720 分辨率没有压力,而且生成效果非常连贯。

美图AI动漫功能的落地探索

2022年可以说是AIGC技术的元年,LLM领域的GPT和图像领域的Stable Diffusion,都属于行业的颠覆性技术。在图像领域,业界出现了如DALLE,Midjourney等基于简单描述文本生成图像的模型和工具。美图在2022年以来,发布了多项AIGC相关应用,LiveVideoStackCon 2023深圳站 邀请到了美图 影像研究院李骈臻老师分享相关经验。

ae91a6ed84e490c7bacb099780b13ac3.png

昆士兰大学等发布!激光雷达位置识别图神经网络

本文提出了一种激光雷达位置识别方法,称为P-GAT,旨在增加随时间捕获的点云之间的感知范围。与比较点云对不同,我们比较点云集之间的相似性,利用姿势图SLAM的概念来利用邻近云之间的最大空间和时间信息。通过利用内部和外部关注以及图神经网络,P-GAT关联了欧几里德空间中附近位置捕获的点云及其在特征空间中的嵌入。

深度学习特征提取匹配开源算法:SuperPoint和SuperGlue

SuperPoint和SuperGlue在CVPR2020图像匹配挑战赛中排名第一。并且通过对SuperPont和SuperGlue的优化,许多工作在CVPR2021图像匹配挑战赛中也名列前茅。

同济大学开源!基于极线约束的级联对应匹配

准确和鲁棒的对应匹配对于各种3D计算机视觉任务至关重要。然而,传统的基于显式编程的方法往往难以处理具有挑战性的场景,而基于深度学习的方法需要大量标记良好的数据集进行网络训练。在这篇文章中,我们引入了极线约束的级联对应匹配( E3CM ),这是一种解决这些限制的新方法。

3D Gaussian Splatting为什么牛啵?原理、应用场景及最新进展

3D Gaussian Splatting是最近几个月热度极高的突破性工作,对应论文“3D Gaussian Splatting for Real-Time Radiance Field Rendering”是2023年SIGGRAPH最佳论文,在短短的几个月内席卷三维视觉和SLAM领域。 

c9e73224bc73162adf9f353bb16cb3d5.png

打破“成本质量效率”不可能三角,3D生成式AI加速解决VR内容困境

在研究团队公布的论文中,3D-GPT 被描述为“可以简单地根据用户提供的文本描述生成各种各样的 3D 模型和场景”。简单来说,3D-GPT 主要完成的是从输入文字中提取信息并生成建模指令这一关键一步,而后续的建模过程则主要交给 Blender 等建模软件。

Meta Quest Haptics SDK通过v60向所有开发者开放

日前,Haptics Studio和Haptics SDK这两个工具将结束实验版本状态,并正式通过Meta Quest v60向所有开发者开放,包含新的和改进的功能,例如全新的示例项目The Sense Of Touch。另外,之前仅兼容Unity的Haptics SDK已经支持Unreal。

Steam VR开始为Quest用户提供Advanced Supersample Filtering

在日前发布的SteamVR Beta Updated – 2.2.1中,Valve正在将Advanced Supersample Filtering重新带到Meta头显,允许用户通过Steam Link和Quest Link进行启用。

981f486f68b84e567c971feec813e7c3.png

超声芯片革新脑机接口:向无创植入更进一步

Forest Neurotech 和 Butterfly Network 合作构建了一种能够实现「亚毫米精度」操作的脑机接口,相比于传统的电信号,它将使用超声波来刺激和记录大脑活动。

谈谈先进封装的失效分析

先进封装技术给半导体行业带来了变革,市场对更小、更快、更低能耗、更大算力的电子设备的需求驱动了近年来先进封装的快速发展,它追求结构的进一步微型化、更高集成度、更多功能性,以及更好的散热控制。

芯片制造的核心工艺:一文看懂薄膜沉积

薄膜的制备需要不同技术原理,因此导致薄膜沉积设备也需要不同技术原理,物理/化学等不同沉积方法相互补充。

a60baf65de9131cc173666a5f5911729.png

中科院声学所研究人员提出基于泰勒展开形式的端到端语音增强算法

在当前基于深度神经网络模型的单通道和多通道语音增强算法研究中,通常着重于设计合理的网络拓扑结构以尽可能提升降噪算法的性能,往往忽略了对深度神经网络模型自身结构设计合理性与可解释性的探索。因此在大部分现有工作中,科研人员们在结构设计和参数确定等方面经验较丰富,但这些工作缺乏数学理论的指导和支撑。

Opus编解码器中音乐检测的奥秘

Opus是一个有损音频压缩的数字音频编码格式,由Xiph.Org基金会开发,之后由互联网工程任务组(IETF)进行标准化,目标是希望用单一格式包含声音和语音,取代Speex和Vorbis,且适用于网络上低延迟的即时声音传输,标准格式定义于RFC 6716文件。

基于相关度量的自监督语音模型的噪声稳健提取

与大的语音基础模型相比,小的蒸馏模型表现出降低的噪声鲁棒性。学生的鲁棒性可以通过在预训练期间在输入处引入噪声来提高。尽管如此,使用标准蒸馏损失仍然会导致学生的表现下降。因此,本文提出了通过相关度量的蒸馏来提高学生的鲁棒性。教师行为是通过最大化教师和学生对同一性的表征之间的互相关矩阵来学习的。噪声鲁棒性通过学生的自相关最小化来鼓励。所提出的方法是不可知的教师模型,并始终优于以前的方法。这项工作还提出了一种启发式的自动权衡两个相关项的重要性。实验表明,在SUPERB Challenge上,意图分类、关键词识别和自动语音识别任务的干净和噪声泛化能力始终更好。

https://arxiv.org/abs/2312.12153

daaa159d65435ec02bb5f31ad3344289.png

AVS3实时语音标准制定取得重要进展

由腾讯提交的AI Codec为基础的技术顺利通过评审,被选为AVS3P10实时语音编码标准的RM0基线和WD过点成功。从交叉测试来看,真正实现了低码率下质量是对齐OPUS、EVS中高码率的,达到运营级质量。我们在相近码率下,MOS分差过Google和Meta方案在0.6MO-1.0MOS。

微软Edge 121将支持最先进的图像格式AVIF

Microsoft Edge 121是Microsoft浏览器的下一个稳定版本,将为所有用户带来AVIF支持 。AVIF 是一种基于AV1视频编解码器的图像格式,它比JPEG或PNG等其他格式提供更有效的压缩。这意味着与其他格式相比,AVIF 文件可以更小,同时具有相同或更高的视觉质量。

https://www.gearrice.com/update/microsoft-edge-121-will-bring-support-for-avif-the-most-advanced-image-format/ 

d3f112953b124d3183b1fde195694a98.png

依靠HDR-VMAF,Netflix的HDR视频已全部实现动态优化

据11月30日Netflixtechblog显示,Netflix现已推出动态优化 HDR(高动态范围) 视频流功能。该功能使用了新的算法HDR-VMAF,提升了用户的观看体验。Netflix于2016年开始推出HDR视频,此后其提供的HDR影片数量一直持续增长。HDR视频可以提供更广泛的色彩和更高的对比度,从而提供更趋近真实的图像。受限于不同设备和网络条件的差异,HDR视频的播放质量会受到影响。

对话星纪魅族卢勇,AR眼镜背后的产品、生态与商业思考

“留给创业公司的时间就两到三年,接下来巨头就会入局,它们可以不发产品,只做技术预研,但我们作为初创公司,等它们入场的之后再进场,就没有任何机会了。”星纪魅族集团高级副总裁、XR 事业部总裁卢勇在谈到如此时间点,星纪魅族发布两款 AR 眼镜的缘由时对 VR陀螺说道。

b7435428099b883b697f1f41cf99bdc5.png

Meta发布全新社交平台Hoziron Worlds预告片,为用户准备一系列沉浸式体验

Meta日前为元宇宙社交平台Hoziron Worlds发布了一段全新的预告片。其中,团队以“体验全新的VR冒险”为题展示了他们为用户准备了一系列沉浸式体验,包括现有和即将发行的内容。

专注用VR改善大脑健康,Virtuleap完成250万美元融资

专注于用VR来改善大脑健康的初创公司Virtuleap日前宣布获得由GED Ventures提供的250万美元融资。利用这笔资金,团队计划继续完善Enhance VR,并通过虚拟现实+人工智能的力量来改善大脑健康。

8497be852a16e92a1cb3b75d798cc9ac.png

重磅首发|2024音视频技术发展报告(文末附下载)

11月24日,在LiveVideoStackCon 2023深圳站大会上,我们与腾讯云音视频联合首发《2024音视频技术发展报告》。报告通过300+音视频开发者调研,40+专家一线访谈,下沉8大细分技术领域进行全面解读,涵盖音视频编解码/AI编码/多媒体处理框架/媒体传输协议/超低延迟技术/虚拟现实/AIGC/出海等领域,深入洞察音视频技术现状和未来发展趋势。  

点击 “阅读原文“ 

跳转报告下载链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/226575.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

iMazing2024免费版iOS移动设备管理软件

以自己的方式管理iPhone,让备受信赖的软件为您传输和保存音乐、消息、文件和数据。安全备份任何 iPhone、iPad 或 iPod touch。iMazing 功能强大、易于使用,称得上是 Mac 和 PC 上最好的 iOS 设备管理器。 正在为iTunes繁琐的操作发愁?设备数…

HTML+CSS+JS网页设计期末课程大作业 web课程设计 web前端开发 网页规划与设计

HTMLCSSJS网页设计期末课程大作业 web前端开发技术 web课程设计 网页规划与设计 💥 文章目录一、🚩 网站描述二、🎌 网站介绍三、🏴 网站类型A 个人博客主题B 人物明星主题C 旅游主题D 游戏主题E 动漫主题F 美食主题G 校园主题H 企…

uniapp框架——vue3+uniFilePicker+fastapi实现文件上传(搭建ai项目第二步)

文章目录 ⭐前言💖 小程序系列文章 ⭐uni-file-picker 组件💖 绑定事件💖 uploadFile api💖 自定义上传 ⭐后端fastapi定义上传接口⭐uniapp开启本地请求代理devServer⭐前后端联调⭐总结⭐结束 ⭐前言 大家好,我是ym…

shiro1.10版本后-IniSecurityManagerFactory过期失效

1、问题概述? 今天在研究了shiro的新版本shiro1.13.0版本,发现用了很长时间的IniSecurityManagerFactory工厂失效了。 从下图中可以看出,在新版本中IniSecurityManagerFactory被打上了过期线了。 那么问题来了,新版本如何使用呢…

服务器数据恢复-raid6离线磁盘强制上线后分区打不开的数据恢复案例

服务器数据恢复环境: 服务器上有一组由12块硬盘组建的raid6磁盘阵列,raid6阵列上层有一个lun,映射到WINDOWS系统上使用,WINDOWS系统划分了一个GPT分区。 服务器故障&分析: 服务器在运行过程中突然无法访问。对服务…

Scikit-Learn线性回归(一)

Scikit-Learn线性回归一 1、线性回归概述1.1、回归1.2、线性1.3、线性回归1.4、线性回归的优缺点1.5、线性回归与逻辑回归2、线性回归的原理2.1、线性回归的定义与原理2.2、线性回归的损失函数3、Scikit-Learn线性回归3.1、Scikit-Learn库3.2、Scikit-Learn线性回归API3.3、Sci…

一起玩儿物联网人工智能小车(ESP32)——13. 用ESP32的GPIO控制智能小车运动起来(一)

摘要:本文更深入的讲述了GPIO的相关知识,并完成了导线连接工作,为下一步的软件开发做好了准备。 通用输入输出端口(GPIO:General Purpose Input/Output Port),在前面已经有了初步的介绍&#xf…

韩国Neowine车规认证加密芯片ALPU-CV

由工采网代理的ALPU-CV是韩国Neowine(纽文微)推出的一款高性能车规级加密芯片;也是ALPU系列中的高端IC,该芯片通过《AEC-Q100》认证,目前已经在国产前装车辆配件量产使用,主要用于版权license保护、设备防伪…

2014年第三届数学建模国际赛小美赛B题全地形伪装解题全过程文档及程序

2014年第三届数学建模国际赛小美赛 B题 全地形伪装 原题再现: 破坏性着色在军事用途中很常见,用于军用车辆、士兵制服和装备。视觉是人类的主要方向感,伪装的主要功能是欺骗人眼。军事服装中存在大量的伪装图案,以适应作战服装与…

运动目标检测方法的概述

目录 ① 光流法 ② 帧差法 ③ 背景差分法 ④ 混合高斯模型法 ⑤ 总结 运动目标检测技术的应用十分的广泛,尤其是在智能视频监控领域。运动目标检测为后续的图像处理等操作提供了基础,在某种程度上,决定了整个系统的性能。运动目标检测&a…

三列布局 css

实现如下图的三列布局: .box {width:1400px;margin:0 auto;padding-bottom:40px;> .left {float:left;width:180px;margin-top:100px;text-align:center;}> .center {float:left;margin-top:100px;margin-left:130px;item-box {float:left;text-align:left;…

自动化网络故障修复管理

什么是故障管理 故障管理是网络管理的组成部分,涉及检测、隔离和解决问题。如果实施得当,网络故障管理可以使连接、应用程序和服务保持在最佳水平,提供容错能力并最大限度地减少停机时间。专门为此目的设计的平台或工具称为故障管理系统。 …

鸿蒙系列--组件介绍之其他基础组件(上)

上回介绍了基础组件中最常用的组件常用的基础组件,接下来还有其他基础组件 一、Blank 描述:空白填充组件 功能:在容器主轴方向上,具有自动填充容器空余部分的能力。只有当父组件为Row/Column时生效 子组件:无 Blan…

nodejs微信小程序+python+PHP的物流快递管理系统的设计与实现-计算机毕业设计推荐

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性:…

win11 如何在自己的电脑上配置本地服务器,让你可以通过http的方式访问文件和图片

首先,打开控制面板,找到"程序和功能"点击打开。 找到“Internet Information Services”(Internet信息服务),将它的子项及子项的子项全部勾选,点击确定。 回到控制面板,将查看方式改为“大图标”或者“小图…

从实际业务问题出发去分析Eureka-Server端源码

文章目录 前言1.EnableEurekaServer2.初始化缓存3.jersey应用程序构建3.1注册jeseryFilter3.2构建JerseyApplication 4.处理注册请求5.registry() 前言 前段时间遇到了一个业务问题就是k8s滚动发布Eureka微服务的过程中接口会有很多告警,当时…

【Unity地形】使用地形工具创建场景环境-Terrain

如上图Unity的地形工具可以让我们实现创建复杂、丰富的3D室外环境。 我们创建地形很简单,在层级面板中右键-3Dobject-Terrain 就可以创建一个默认的地形模型!这个模型是Unity内置的。 接下来的地形编辑功能全部集中在这个地形的组件上 主要功能如下&…

SpringBoot 项目中常用的注解

每一层对应每个包,包名中应全为小写。 一、Common 层(实体类) 前提:导入 Lombok 依赖 Data:生成 get 和 set 方法以及 toString 方法 Getter:只生成 get 方法,避免对类中的成员变量修改。 …

AVL树(超详解)

文章目录 前言AVL树的概念AVL树的实现定义AVL树insert 单旋左单旋右单旋左单旋代码右单旋代码 双旋左右双旋右左双旋 测试AVL树的性能 前言 AVL树是怎么来的呢? 我们知道搜索二叉树会存在退化问题,退化以后就变成单支或者接近单支。 它的效率就变成O(N)…

Matplotlib找不到Times New Roman的解决方案

问题背景 在使用seaborn或者matplotlib进行论文画图的时候,一般都会用Times New Roman这个字体,但是在Linux系统里,经常会遇到以下的问题: findfont: Font family [Times New Roman] not found. Falling back to DejaVu Sans. 也就是说找不…