音视频技术开发周刊 | 326

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

3428c81ca17399dffaae481bf337e441.png

全球最强「开源版Gemini」诞生!全能多模态模型Emu2登热榜,多项任务刷新SOTA

最强的全能多模态模型来了!就在近日,智源研究院重磅发布了开源界的「Gemini」——Emu2,一口气刷新多项SOTA。

成立2年融资近9亿!AI NPC引爆游戏行业巨变,微软等大厂已经入局

成立2年融资近9亿!AI NPC引爆游戏行业巨变,微软等大厂已经入局。

谷歌DeepMind联手复仇!Jeff Dean、Hassabis万字长文总结2023绝地反击

刚刚,谷歌DeepMind联手复仇!Jeff Dean、Hassabis万字长文总结2023绝地反击。

c7ac07f3d4a8eb6789ed22491ba8af03.png

昆仑万维入选机器之心2023年度最佳大模型 TOP 20、最佳大模型产品及应用 TOP 20
近日,机器之心正式揭晓「AI 中国」机器之心 2023 年度榜单,昆仑万维天工大模型入选“最佳大模型 TOP 20”,天工APP入选“最佳大模型产品及应用 TOP 20”。

快手Agents系统、模型、数据全部开源!

快手联合哈尔滨工业大学研发的「KwaiAgents」,使7B/13B模型也能达到超越GPT-3.5的效果,并且这些系统、模型、数据、评测都开源了!

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

在这篇 NeurIPS23 论文中,来自鲁汶大学、新加坡国立大学和中科院自动化所的研究者提出了一种视觉 「读脑术」,能够从人类的大脑活动中以高分辨率解析出人眼观看到的图像。

CPU推理提升4到5倍,苹果用闪存加速大模型推理,Siri 2.0要来了?

文生视频可以精细到什么程度?最近,阿里巴巴的一项研究给出了答案:1280×720 分辨率没有压力,而且生成效果非常连贯。

bbe66f44280edb5e7156590549c758f8.png

深度学习特征提取匹配开源算法:SuperPoint和SuperGlue

SuperPoint是AR公司——magicleap的工作, SuperGlue是magicleap和苏黎世联邦理工学院(ETH)一起合作的,在2020年附近,SuperPoint+SuperGlue在特征点提取和匹配上有很好的效果,可以达到世界第一的水平。

悉尼大学新作:坐标系在动态SLAM中究竟有多重要?

本文对动态SLAM的多种解决方案进行了深入分析,并且确定了解决该问题的最佳方案。本文旨在突出坐标系对于解决动态SLAM问题的重要性。

太强了!世界第一款开源的自动驾驶一体化框架Autoware!

Autoware最早是由名古屋大学研究小组在加藤伸平教授(Prof. Shinpei Kato)的领导下于2015年8月正式发布。

挪威科技大学开源!用于水下里程计折射相机在线自标定

本文提出了一种适用于水等折射介质的相机模型及其在水下视觉惯性里程计中的应用。该模型是实时自校准的,不需要已知的对应关系或校准目标。它可分为畸变模型(依赖于折射率n和径向像素坐标)和虚拟针孔模型(作为n的函数)。我们推导了利用极线约束的自校准公式来估计折射率,然后对畸变进行校正。

6950ae5723c69544dbd8aec5f5a3a4ee.png

国产AR操作系统告别“卡脖子”,迈向新里程碑

近日, Rokid 联合粒界科技就推动了国产 AR操作系统向前走了一大步,Rokid 新一代空间计算操作系统 YodaOS-Master 将全面支持粒界图形引擎GritGene,实现在 AR 领域软硬件产品全面自主可控和闭环,向行业释放了一系列利好的消息。

微软专利分享元宇宙远程会议中2D与3D的无缝过渡方法

远程会议的发展正在促进元宇宙的普及。然而,当前在线会议应用使用元环境的其中一个主要问题是,并非会议的所有参与者都拥有相同类型的设备。例如,特定用户操作PC,而其他用户操作VR头显。

Meta正式推出MR Utility Kit,帮助你快速构建空间感知型MR应用

Meta在Connect大会发布的实用工具套件MR Utility Kit( Unity和Unreal)现已可用,并提供了诸如Passthrough Rellighting等能够帮助你加快开发并增强应用程序真实感的功能。

dbbcc8dc0e72bb2631999dab2d0fa61e.png

EUV光刻,日本多路出击

在半导体制造过程中,光刻是最关键的步骤之一,决定了芯片的功能和性能。

被放弃的存储技术,3D XPoint细节首度公开

3D XPoint内存技术被称为英特尔与美光科技(以下简称美光)于2015年7月28日(美国时间)共同开发的大容量、高速非易失性内存技术。英特尔于2017年3月商业化了用于服务器的“傲腾SSD DC P4800X”高速SSD,并于2017年4月商业化了用于HDD缓存的“傲腾内存系列”M2卡。“Optane”是英特尔为配备 3D XPoint 内存的产品赋予的品牌名称。

被放弃的存储技术,3D XPoint细节首度公开

3D XPoint内存技术被称为英特尔与美光科技(以下简称美光)于2015年7月28日(美国时间)共同开发的大容量、高速非易失性内存技术。英特尔于2017年3月商业化了用于服务器的“傲腾SSD DC P4800X”高速SSD,并于2017年4月商业化了用于HDD缓存的“傲腾内存系列”M2卡。“Optane”是英特尔为配备 3D XPoint 内存的产品赋予的品牌名称。

一文读懂GPU的过去、现在和未来

大模型AI席卷全球,推理创新的APP、场景落地越来越多。当训练达到一定阶段,推理必然会形成一个爆发。推理的产品要起来,必然要把推理的成本降到今天 1/ 10 甚至 1/100。此时该如何选好、用好 GPU ,进而影响推理成本?

ee84954e0987a0de71a48b724001ceb3.png

ASRU2023 | U2-KWS: 基于关键词偏置的两阶段自定义关键词检出

近期,西工大音频语音与语言处理研究组(ASLP@NPU)和理想汽车合作论文“U2-KWS: Unified Two-pass Open-Vocabulary Keyword Spotting with Keyword Bias”被语音领域旗舰会议IEEE ASRU 2023接收。该论文提出了基于关键词偏置的两阶段自定义关键词检出方案U2-KWS,该方案在两级验证阶段基于注意力机制分别进行关键词偏置(bias)。

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

近日,由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1],凭借其 「数据到数据」的生成范式,在样本质量和采样速度两方面,均击败了扩散模型的 「噪声到数据」范式。

清华大学人机语音交互实验室关于表现力语音合成自动风格控制和篇章情感分析的工作荣获最佳论文

语音合成旨在让机器根据给定的文本生成对应内容的语音。表现力语音合成(Expressive Speech Synthesis)致力于为语音合成提供更丰富的情感波动和风格变化,以提高合成语音的拟人度和感染力,在有声读物、虚拟主播、虚拟人等场景下有着广泛的应用价值,因而受到了越来越多研究者的关注。

https://arxiv.org/abs/2312.03491

郑成诗研究员科研团队发表重要综述:时频域单通道语音增强60年——从传统方法到深度学习方法

近日,中国科学院声学研究所(以下简称声学所)噪声与音频声学实验室郑成诗研究员研究团队在听觉领域期刊Trends in Hearing(中国科学院期刊分区一区top)发表综述:Sixty Years of Frequency-Domain Monaural Speech Enhancement: From Traditional to Deep Learning Methods(0时频域单通道语音增强60年——从传统方法到深度学习方法)。

座舱音频系统的架构设计和音频体验

近年来,智能座舱体验日益成为汽车竞争力的核心,智能座舱的多样体验正在成为用户购车时考虑的重要因素。 

4066cc45f150c425455dc0f8380ce54e.png

低延时视频技术的应用场景和挑战

无线网络对人们的生活产生了巨大的影响,而5G技术的引入将彻底改变我们与世界互联互通的方式。在5G时代,实现万物互联离不开低延时技术的应用。

19e9661d3ff375e02addf0d9be40d217.png

专访Meta CTO:AI已是XR杀手应用,LLM开源社区竞争没有输家

Meta CTO接受访谈,大谈AI开源竞争,认为AI开源将让所有参与者获益。同时,XR已经准备好利用AI搭建杀手应用,Meta最近推出的AR眼镜就是最好的例子。

对话国产EDA和IP厂商,如何攻克大规模数字电路设计挑战?

随着先进制程不断推进,以及AI、大数据、云计算等一系列新技术的快速发展,数字电路的处理能力越来越强,电路规模越来越大,对大规模数字芯片的需求也越来越多。因此,如何加速大规模数字电路设计就成为了业内芯片设计企业关注的焦点。

ae778b2c776c1f55c26d125066cee643.png

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力,推动了多模态大模型(MLLM)快速发展,MLLM 成为了现在业界最热的研究方向。

华为发布问界M9,号称一千万以内最好的SUV,有被震撼到

昨天看了华为问界M9的发布会,余总号称一千万以内最好的SUV(本来以为是个梗,发布会对标的确实很多是几百万的豪车)。计划继续完善Enhance VR,并通过虚拟现实+人工智能的力量来改善大脑健康。

郭明錤:2024年Vision Pro出货量约50万台;Meta 明年将展示一款超前 AR 眼镜原型

苹果年度重磅产品 Vision Pro 将于明年 Q1 于美国市场上市,目前业内对于 Vision Pro 的预估出货量都持不同看法。据天风国际证券分析师郭明錤最新的推文预测,Vision Pro 在明年的出货量约为 50 万台。

腾讯云音视频的创新技术、多元场景以及出海洞察

近年来,腾讯云音视频在音视频技术领域不断突破创新,从采集、编码、传输加速、云端媒体处理、分发到解码,不断探索前沿技术,并将其广泛应用于多元化的场景中。与此同时,在海外市场的实践中,腾讯云音视频积累了丰富的经验和对市场的深刻洞察。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/228835.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云计算复习提纲

第一章 大数据的概念:海量数据的规模巨大到无法通过目前主流的计算机系统在合理时间内获取、存储、管理、处理并提炼以帮助使用者决策 大数据的特点:①数据量大,存储的数据量巨大,PB级别是常态;②多样,数…

第9章 继承和派生习题(详解)

一、选择题 1.下列表示引用的方法中, () 是正确的。已知:int m10: A.int &xm; B.int &y10; C.int &z; D.fl…

计算机网络(1)

计算机网络(1) 小程一言专栏链接: [link](http://t.csdnimg.cn/ZUTXU) 计算机网络和因特网(1)因特网概念解读服务常见的服务 协议网络边缘特点强调 网络核心特点强调 小程一言 我的计算机网络专栏,是自己在计算机网络…

常用环境部署(十三)——GitLab整体备份及迁移

一、GitLab备份 注意:由于我的GitLab是docker安装的,所以我的操作都是在容器内操作的,大家如果不是用docker安装的则直接执行命令就行。 1、Docker安装GitLab 链接:常用环境部署(八)——Docker安装GitLab-CSDN博客 2、GitLab备…

【LMM 005】LLaVA-Interactive:集图像聊天,分割,生成和编辑三种多模态技能于一体的Demo

论文标题:LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing 论文作者:Wei-Ge Chen, Irina Spiridonova, Jianwei Yang, Jianfeng Gao, Chunyuan Li 作者单位:Microsoft Research, Redmond 论文原…

Spring04

一、AOP的概念 AOP 为 (Aspect Oriented Programming) 的缩写,意为:面向切面编程,底层是使用动态代理的技术实现对目标方法的增强和控制访问等功能。 其中AOP中有几个重要的概念: 1、通知:增强的逻辑,或者后期要加入的代码。 2、目…

2024校招测试工程师笔试——经典错题记录和解析

大家好,这篇文章记录几个测开方向经典的例题,并给出相应解析,欢迎给出你的看法 下列关于软件性能测试的说法中,正确的是:( ) A 性能测试的目的不是为了发现软件缺陷 B 压力测试与负载测试的目的…

【并发设计模式】聊聊Thread-Per-Message与Worker-Thread模式

在并发编程中,核心就是同步、互斥、分工。 同步是多个线程之间按照一定的顺序进行执行,比如A执行完,B在执行。而互斥是多个线程之间对于共享资源的互斥。两个侧重点不一样,同步关注的是执行顺序,互斥关注的是资源的排…

CGAL的空间排序

1、介绍 许多在CGAL中实现的几何算法都是增量的,因此它们的速度取决于插入顺序。此软件包提供了排序算法,可以大大提高此类算法的运行时间。 其基本原理是沿着空间填充曲线对对象进行排序,这样在插入顺序上,几何上接近的两个对象将…

.net8 AOT编绎-跨平台调用C#类库的新方法-函数导出

VB.NET AOT无法编绎DLL,微软的无能,正是你的机会 .net8 AOT编绎-跨平台调用C#类库的新方法-函数导出 1,C#命令行创建工程:dotnet new classlib -o CSharpDllExport 2,编写一个静态方法,并且为它打上UnmanagedCallersO…

Linux - 设置虚拟机和主机IP在同一网段(桥接)

1.查看主机ip地址等相关信息。 ipconfig -all 2.设置虚拟网络编辑器 打开虚拟网络编辑器 设置虚拟网络编辑器,设置为桥接模式。(记得以管理员方式打开VMware)。 3.修改虚拟机网卡文件 查看虚拟机ip,我们的目标是将其修改为与主机同一网段…

postman使用-04响应

文章目录 响应响应界面说明Pretty:格式化显示,以便查看Raw:不进行任何处理,显示响应数据的原始格式Preview:预览响应体,会自动换行,不会格式化(有时候是数据,有时候是页面…

什么是缓存、为什么要用缓存、缓存分类、缓存测试、缓存更新、缓存设计考虑点、缓存测试点

一、缓存 缓存是一种将数据存储在高速缓存中的技术,它可以提高应用程序的性能和响应速度。 二、 为什么要用缓存 1. 高性能(主要目的) 查询耗时,但变化少,又有很多读请求情况下,可以将查询结果放到缓存中。减少对数据库的压力&…

Java位运算及移位运算

java中能表示整数数据类型的有byte、short、char、int、long,在计算机中占用的空间使用字节描述,1个字节使用8位二进制表示。 数据类型字节数二进制位数表示范围默认值byte18-27 – 27-10char2160 – 216-1\u0000 (代表字符为空 转成int就是0)short216-…

Word 将页面方向更改为横向或纵向

文章目录 更改整个文档的方向更改部分页面的方向方法1:方法2: 参考链接 更改整个文档的方向 选择“布局”>“方向”,选择“纵向”或“横向”。 更改部分页面的方向 需要达到下图结果: 方法1: 选:中你要在横向页面…

帆软报表中定时调度中的最后一步如何增加新的处理方式

在定时调度中,到调度执行完之后,我们可能想做一些别的事情,当自带的处理方式不满足时,可以自定义自己的处理方式。 产品的处理方式一共有如下这些类型: 我们想在除了上面的处理方式之外增加自己的处理方式应该怎么做呢? 先看下效果: 涉及到两方面的改造,前端与后端。…

C++日期类的实现

前言:在类和对象比较熟悉的情况下,我们我们就可以开始制作日期表了,实现日期类所包含的知识点有构造函数,析构函数,函数重载,拷贝构造函数,运算符重载,const成员函数 1.日期类的加减…

【产品设计】信息建设三驾马车:PLM系统拆解

本篇文章将介绍PLM的基础信息、发展及模块功能等内容,让大家对PLM有一个全面、完整地了解,方便在后期的工作中能快速地使用其解决方案,希望本篇文章能对你有所帮助。 PLM系统主要实现产品模块业务,既包含产品的创意设计、样品打样…

【源码】-MyBatis-如何系统地看源码

写在前面 前段时间做过一个项目,期间用到了动态数据源dynamic-datasource,经历了dbcp2的数据库连接池没有生效到排查定位、MyBatis多种数据库产品兼容、手写MyBatis拦截器等事情。 花费了好久,一直在打磨这篇文章(不知道花费这么长…

thinkphp6.0升级到8.0

目录 一:升级过程 二:报错处理 最近写的项目需要使用thinkphp8.0,之前的老项目需要从php6.0升级到8.0,特此记录下升级过程。 一:升级过程 查看版本: php think version,我目前的版本是6.1.4 生成thin…