音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

全球最强「开源版Gemini」诞生！全能多模态模型Emu2登热榜，多项任务刷新SOTA

最强的全能多模态模型来了！就在近日，智源研究院重磅发布了开源界的「Gemini」——Emu2，一口气刷新多项SOTA。

成立2年融资近9亿！AI NPC引爆游戏行业巨变，微软等大厂已经入局

成立2年融资近9亿！AI NPC引爆游戏行业巨变，微软等大厂已经入局。

谷歌DeepMind联手复仇！Jeff Dean、Hassabis万字长文总结2023绝地反击

刚刚，谷歌DeepMind联手复仇！Jeff Dean、Hassabis万字长文总结2023绝地反击。

昆仑万维入选机器之心2023年度最佳大模型 TOP 20、最佳大模型产品及应用 TOP 20
近日，机器之心正式揭晓「AI 中国」机器之心 2023 年度榜单，昆仑万维天工大模型入选“最佳大模型 TOP 20”，天工APP入选“最佳大模型产品及应用 TOP 20”。

快手Agents系统、模型、数据全部开源！

快手联合哈尔滨工业大学研发的「KwaiAgents」，使7B/13B模型也能达到超越GPT-3.5的效果，并且这些系统、模型、数据、评测都开源了！

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

在这篇 NeurIPS23 论文中，来自鲁汶大学、新加坡国立大学和中科院自动化所的研究者提出了一种视觉「读脑术」，能够从人类的大脑活动中以高分辨率解析出人眼观看到的图像。

CPU推理提升4到5倍，苹果用闪存加速大模型推理，Siri 2.0要来了？

文生视频可以精细到什么程度？最近，阿里巴巴的一项研究给出了答案：1280×720 分辨率没有压力，而且生成效果非常连贯。

深度学习特征提取匹配开源算法：SuperPoint和SuperGlue

SuperPoint是AR公司——magicleap的工作， SuperGlue是magicleap和苏黎世联邦理工学院(ETH)一起合作的,在2020年附近，SuperPoint+SuperGlue在特征点提取和匹配上有很好的效果，可以达到世界第一的水平。

悉尼大学新作：坐标系在动态SLAM中究竟有多重要？

本文对动态SLAM的多种解决方案进行了深入分析，并且确定了解决该问题的最佳方案。本文旨在突出坐标系对于解决动态SLAM问题的重要性。

太强了！世界第一款开源的自动驾驶一体化框架Autoware！

Autoware最早是由名古屋大学研究小组在加藤伸平教授(Prof. Shinpei Kato)的领导下于2015年8月正式发布。

挪威科技大学开源！用于水下里程计折射相机在线自标定

本文提出了一种适用于水等折射介质的相机模型及其在水下视觉惯性里程计中的应用。该模型是实时自校准的，不需要已知的对应关系或校准目标。它可分为畸变模型(依赖于折射率n和径向像素坐标)和虚拟针孔模型(作为n的函数)。我们推导了利用极线约束的自校准公式来估计折射率，然后对畸变进行校正。

国产AR操作系统告别“卡脖子”，迈向新里程碑

近日， Rokid 联合粒界科技就推动了国产 AR操作系统向前走了一大步，Rokid 新一代空间计算操作系统 YodaOS-Master 将全面支持粒界图形引擎GritGene，实现在 AR 领域软硬件产品全面自主可控和闭环，向行业释放了一系列利好的消息。

微软专利分享元宇宙远程会议中2D与3D的无缝过渡方法

远程会议的发展正在促进元宇宙的普及。然而，当前在线会议应用使用元环境的其中一个主要问题是，并非会议的所有参与者都拥有相同类型的设备。例如，特定用户操作PC，而其他用户操作VR头显。

Meta正式推出MR Utility Kit，帮助你快速构建空间感知型MR应用

Meta在Connect大会发布的实用工具套件MR Utility Kit（ Unity和Unreal）现已可用，并提供了诸如Passthrough Rellighting等能够帮助你加快开发并增强应用程序真实感的功能。

EUV光刻，日本多路出击

在半导体制造过程中，光刻是最关键的步骤之一，决定了芯片的功能和性能。

被放弃的存储技术，3D XPoint细节首度公开

3D XPoint内存技术被称为英特尔与美光科技（以下简称美光）于2015年7月28日（美国时间）共同开发的大容量、高速非易失性内存技术。英特尔于2017年3月商业化了用于服务器的“傲腾SSD DC P4800X”高速SSD，并于2017年4月商业化了用于HDD缓存的“傲腾内存系列”M2卡。“Optane”是英特尔为配备 3D XPoint 内存的产品赋予的品牌名称。

被放弃的存储技术，3D XPoint细节首度公开

一文读懂GPU的过去、现在和未来

大模型AI席卷全球，推理创新的APP、场景落地越来越多。当训练达到一定阶段，推理必然会形成一个爆发。推理的产品要起来，必然要把推理的成本降到今天 1/ 10 甚至 1/100。此时该如何选好、用好 GPU ，进而影响推理成本？

ASRU2023 | U2-KWS: 基于关键词偏置的两阶段自定义关键词检出

近期，西工大音频语音与语言处理研究组（ASLP@NPU）和理想汽车合作论文“U2-KWS: Unified Two-pass Open-Vocabulary Keyword Spotting with Keyword Bias”被语音领域旗舰会议IEEE ASRU 2023接收。该论文提出了基于关键词偏置的两阶段自定义关键词检出方案U2-KWS，该方案在两级验证阶段基于注意力机制分别进行关键词偏置（bias）。

击败扩散模型，清华朱军团队基于薛定谔桥的新语音合成系统来了

近日，由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1]，凭借其「数据到数据」的生成范式，在样本质量和采样速度两方面，均击败了扩散模型的「噪声到数据」范式。

清华大学人机语音交互实验室关于表现力语音合成自动风格控制和篇章情感分析的工作荣获最佳论文

语音合成旨在让机器根据给定的文本生成对应内容的语音。表现力语音合成（Expressive Speech Synthesis）致力于为语音合成提供更丰富的情感波动和风格变化，以提高合成语音的拟人度和感染力，在有声读物、虚拟主播、虚拟人等场景下有着广泛的应用价值，因而受到了越来越多研究者的关注。

https://arxiv.org/abs/2312.03491

郑成诗研究员科研团队发表重要综述：时频域单通道语音增强60年——从传统方法到深度学习方法

近日，中国科学院声学研究所（以下简称声学所）噪声与音频声学实验室郑成诗研究员研究团队在听觉领域期刊Trends in Hearing（中国科学院期刊分区一区top）发表综述：Sixty Years of Frequency-Domain Monaural Speech Enhancement: From Traditional to Deep Learning Methods（0时频域单通道语音增强60年——从传统方法到深度学习方法）。

座舱音频系统的架构设计和音频体验

近年来，智能座舱体验日益成为汽车竞争力的核心，智能座舱的多样体验正在成为用户购车时考虑的重要因素。