脑机接口、嵌入式 AI 、工业级 MR、空间视频和下一代 XR 浏览器丨RTE2024 空间计算和新硬件专场回顾

在这里插入图片描述

这一轮硬件创新由 AI 引爆,或许最大受益者仍是 AI,因为只有硬件才能为 AI 直接获取最真实世界的数据。

在人工智能与硬件融合的新时代,实时互动技术正迎来前所未有的创新浪潮。从嵌入式系统到混合现实,从空间视频到脑机接口,这些前沿领域正以惊人的速度推进,为未来的人机交互描绘出令人振奋的蓝图。在本届 RTE2024 大会上,来自产业界和学术界的多位专家深入探讨了这些技术的最新进展及其潜在应用。

闪极科技 CTO 周万程、声网视频工程师许振明、萤火空间创始人邵鹏、姬械机科技联合创始人卢树强以及 Rokid 前端工程师刘亚中等分享了他们在各自领域的研究成果和独到见解。

果壳创始人、未来光锥基金创始合伙人姬十三主持了主题分享和圆桌讨论环节。

周万程:有限硬件资源下嵌入式系统的 AI 实时音频算法

在这里插入图片描述

闪极科技 CTO 周万程 在分享中深入探讨了在嵌入式系统中实现 AI 实时音频算法的挑战与解决方案。他结合自己在电路与系统领域的背景,生动阐述了 「没有嵌入式,AI 则无翅」 这一观点。

随着 AI 技术的爆发式发展,如何将先进的 AI 功能部署到轻量级的边缘计算平台上,成为提升用户体验的关键技术。然而,嵌入式系统面临着处理能力、内存和功耗等硬件资源的严格限制。

针对这些限制,周万程提出了三个优化方向:

1、降低算法复杂度: 通过量化、减枝和低秩近似等技术,显著降低计算量。

2、数据优化: 利用多级缓存、数据预取和动态缓存等策略,提高数据访问效率。

3、硬件支持: 充分利用 DSP、ASIC 和 FPGA 等硬件加速单元。

展望未来,周万程认为 NPUFPGA 的可重构特性将为嵌入式 AI 带来巨大机遇。他强调,嵌入式系统中的机器学习将成为推动 AI 发展的重要力量,因为它们能直接接触到真实世界的数据。

在这里插入图片描述

许振明:空间视频在 RTC 直播中的应用探索

在这里插入图片描述

许振明 分享了声网团队在空间视频技术方面的最新探索,重点介绍了如何将空间视频应用于实时互动直播中。

要在 RTC 中实现空间视频,必须解决三个关键问题:3D 内容的生产、传输和渲染显示。

在内容生产方面,iPhone 15 Pro 的双摄像头设计使得消费级设备能够采集空间视频成为可能。此外,AI 生成的视频,如 SORA,也可以通过时间偏移技术模拟双目效果。

在传输方面,采用 Multi-view 编码技术可以节省超过30%的码率。与此同时,还需要考虑网络抖动、FEC 保护等 RTC 特有的问题。

渲染显示 是最具挑战的环节。为了实现流畅的空间视频体验,每只眼睛至少需要 1080p 30fps,理想情况下是 4K 60fps。这对渲染性能和系统调度精度提出了很高要求。声网通过多种优化手段来保证渲染质量。

许振明表示,声网提供了灵活的 API,开发者可以根据需求选择使用声网的采集、编解码、传输等能力。除了空间视频,声网还提供 空间音频、AI 降噪、Persona 等多项技术,支持更沉浸式的 RTC 体验。

在这里插入图片描述

邵鹏:混合现实 MR 和空间计算的未来与挑战

在这里插入图片描述

苏州萤火空间创始人兼 CTO 邵鹏 首先介绍了混合现实(MR)的概念,称其为增强现实(AR)的升级分支。MR 设备可以让用户同时看到真实世界和虚拟内容,并实现虚拟与现实的无缝融合和交互。他进一步详细解释了空间计算的不同层次,从 0 自由度(DOF)到 6DOF 再到 SLAM,每一层级都要求更复杂的硬件和算法支持。

在技术细节方面,邵鹏强调了实现高质量 MR 体验所面临的挑战,包括 稳定的空间算法、明亮的实景显示、清晰的 RGB 显示以及较大的视场角(FOV)。他预测,真正的消费级 MR 眼镜可能要到 2030 至 2035 年才能问世,这将需要在重量、续航、建模能力等多个方面达到高水平。

面对这些挑战,邵鹏提出了将计算任务上云的解决方案,认为这一策略可以使本地设备更加轻便,并大大延长续航时间。然而,他也指出,这种趋势可能对国内硬件厂商构成威胁,并呼吁加强对 SLAM空间计算的研究,以在未来的技术浪潮中保持竞争力。

最后,邵鹏展示了萤火空间的产品,介绍了其能够实时快速建立空间模型,并支持远程专家进行空间标注和指导的功能。他认为这种技术在远程协作培训等领域具有广阔的应用前景。

在这里插入图片描述

卢树强:脑机接口与俱身智能计算体系的前沿探索

在这里插入图片描述

姬械机科技联合创始人卢树强开门见山地解释道,「脑机接口本质上属于智能硬件,它是对大脑信号的采集与计算,并通过与外界设备或环境的交互来实现功能。」他进一步将脑机接口技术分为两类:侵入式(需要开颅)和非侵入式(皮肤外接触)。虽然这项技术在日常生活中尚不普及,但其巨大的潜力令人期待。

俱身智能 的主要体系可以分为两大类:一类是通过视觉传感器进行环境理解和任务执行;另一类是通过智能穿戴设备(包括脑机接口)来捕捉人体信息,用于训练人形机器人。

在介绍计算体系时,卢树强详细阐述了从数据采集、处理到重建、生成的完整流程。「与 VR、XR 技术不同,我们面对的是 多元高维度的数据,」他强调道,「这就要求我们具备高精度、高采样率的传感器,以及复杂的降噪和特征识别算法。」

在这里插入图片描述

刘亚中:多维沉浸,探索 XR 中的 Web 内容新体验

在这里插入图片描述

Rokid 前端工程师刘亚中介绍了 JSAR——一个创新的 Web XR 运行时与浏览器,旨在解决当前 Web XR 内容在 XR 空间中面临的两大挑战:

应用形态的限制: 目前,Web XR 内容在 XR 设备上只能选择呈现为平面网页或独占的 3D 场景,无法同时存在,这大大限制了 Web XR 的使用场景和体验。

3D 场景中的 UI 开发复杂性: 与传统的 2D 网页相比,在 Web XR 中开发简单的 UI 组件需要大量代码,这对开发者非常不友好。

**为了解决这两个问题,刘亚中和团队开发了 JSAR。**JSAR 使得 Web XR 应用能够与其他 2D 和 3D 应用并存,并简化了 3D 场景中的 UI 开发。通过深度缓冲等技术,JSAR 实现了 Web XR 内容与 Unity 等游戏引擎渲染的无缝集成。

JSAR 的架构设计: 每个 Web XR 应用都是一个独立进程,通过客户端与 Unity 进程通信。这不仅实现了多个应用的共存,还引入了空间音频等优势。

未来展望:JSAR 将扩展更多功能,包括支持运行 HTML、传统 2D 网页等,成为真正的下一代 XR 浏览器。

在这里插入图片描述

圆桌讨论:下一代计算平台的模样

在这里插入图片描述
在这里插入图片描述

在主题是「下一代计算平台的模样」的圆桌讨论中,来自「未来光锥前沿基金」的姬十三担任主持人,参与讨论的嘉宾包括周万程、许振明、邵鹏、卢树强和刘亚中。

谈及 Apple Vision Pro 的未来, 嘉宾们普遍认为尽管存在一些局限性,但这款产品为整个行业树立了新的标杆。卢树强观察到 Vision Pro 在游戏开发和个人使用方面的需求正在增长。许振明补充道,即便 Vision Pro 停产,它对行业的影响也已经深远。

在 AI 与硬件结合的话题上, 周万程强调了 反思型 AI 的重要性,认为未来 AI 应该能够根据用户的反馈不断改进。邵鹏从混合现实的角度出发,指出大语言模型、图像识别和 3D 模型理解将极大提升 MR 设备 的交互能力和应用场景。卢树强则预测,AI 在未来两三年内将主要提供基础信息服务,而在更远的未来,可能会实现 任务和操作 层面的服务。刘亚中则提出,大语言模型使得用户 不再依赖传统的网址输入 ,而是通过 AI 自动为其选择和提供相应服务,极大提升了使用体验。

关于下一代计算平台 , 专家们提出了多元化的观点。卢树强认为 人形机器人 可能成为重要的计算平台,预计在十年内可能出现雏形。许振明则看好 汽车作为潜在的计算中心 ,特别是在自动驾驶领域。邵鹏坚持认为 云计算 仍将是主要的计算平台,但 AR/MR/VR 设备可能成为重要的人机交互界面。周万程提出 未来的计算可能是分布式的, 利用闲置的设备资源进行边缘计算。刘亚中则认为,AI 可能会引发硬件革命,用户们将能够 自行开发新的硬件 来满足他们的需求。
在这里插入图片描述

「无所不在的计算:空间计算和新硬件」技术专场由 RTE 开发者社区和未来光锥前沿基金联合出品。
在这里插入图片描述

RTE 开发者社区是聚焦实时互动领域的开发者社区。希望通过社区链接领域内的开发者和生态力量,萌芽更多新技术、新场景,探索实时互动领域的更多可能。这里你将遇见一群致力于改变人和人、人和世界,以及人和 AI 连接方式的开发者。
在这里插入图片描述

「未来光锥」是由果壳发起的科创品牌,致力于推动科研端与产业端相互融合,促进科技成果的高效转化。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/473693.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Restful API接⼝简介及为什么要进⾏接⼝压测

一、RESTful API简介 在现代Web开发中,RESTful API已经成为一种标准的设计模式,用于构建和交互网络应用程序。本文将详细介绍RESTful API的基本概念、特点以及如何使用它来设计高效的API接口。 1. 基于协议 HTTP 或 HTTPS RESTful API通常使用HTTP&am…

面试经典 150 题:20、2、228、122

20. 有效的括号 参考代码 #include <stack>class Solution { public:bool isValid(string s) {if(s.size() < 2){ //特判&#xff1a;空字符串和一个字符的情况return false;}bool flag true;stack<char> st; //栈for(int i0; i<s.size(); i){if(s[i] ( |…

Python爬虫下载新闻,Flask展现新闻(2)

上篇讲了用Python从新闻网站上下载新闻&#xff0c;本篇讲用Flask展现新闻。关于Flask安装网上好多教程&#xff0c;不赘述。下面主要讲 HTML-Flask-数据 的关系。 简洁版 如图&#xff0c;页面简单&#xff0c;主要显示新闻标题。 分页&#xff0c;使用最简单的分页技术&…

基于Java和Vue实现的上门做饭系统上门做饭软件厨师上门app

市场前景 生活节奏加快&#xff1a;在当今快节奏的社会中&#xff0c;越来越多的人因工作忙碌、时间紧张而无法亲自下厨&#xff0c;上门做饭服务恰好满足了这部分人群的需求&#xff0c;为他们提供了便捷、高效的餐饮解决方案。个性化需求增加&#xff1a;随着人们生活水平的…

【配置后的基本使用】CMake基础知识

&#x1f308; 个人主页&#xff1a;十二月的猫-CSDN博客 &#x1f525; 系列专栏&#xff1a; &#x1f3c0;各种软件安装与配置_十二月的猫的博客-CSDN博客 &#x1f4aa;&#x1f3fb; 十二月的寒冬阻挡不了春天的脚步&#xff0c;十二点的黑夜遮蔽不住黎明的曙光 目录 1.…

Centos 7 安装wget

Centos 7 安装wget 最小化安装Centos 7 的话需要上传wget rpm包之后再路径下安装一下。rpm包下载地址&#xff08;http://mirrors.163.com/centos/7/os/x86_64/Packages/&#xff09; 1、使用X-ftp 或者WinSCP等可以连接上传的软件都可以首先连接服务器&#xff0c;这里我用的…

Linux最深刻理解页表于物理内存

目录 物理内存管理 页表设计 物理内存管理 如果磁盘上的内容加载到物理内存上&#xff0c;每次io都会按照4kb的方式进行加载(可能不同版本系统有些区别)。所以我们的物理内存上的内容也是4个字节进行管理的。 而每个页框都需要我们进行管理。所以自然物理内存就会对页框进行先…

几何合理的分片段感知的3D分子生成 FragGen - 评测

FragGen 来源于 2024 年 3 月 25 日 预印本的文章&#xff0c;文章题目是 Deep Geometry Handling and Fragment-wise Molecular 3D Graph Generation&#xff0c; 作者是 Odin Zhang&#xff0c;侯廷军&#xff0c;浙江大学药学院。FragGen 是一个基于分子片段的 3D 分子生成模…

PySpark——Python与大数据

一、Spark 与 PySpark Apache Spark 是用于大规模数据&#xff08; large-scala data &#xff09;处理的统一&#xff08; unified &#xff09;分析引擎。简单来说&#xff0c; Spark 是一款分布式的计算框架&#xff0c;用于调度成百上千的服务器集群&#xff0c;计算 TB 、…

基于Java Springboot编程语言在线学习平台

一、作品包含 源码数据库设计文档万字PPT全套环境和工具资源部署教程 二、项目技术 前端技术&#xff1a;Html、Css、Js、Vue、Element-ui 数据库&#xff1a;MySQL 后端技术&#xff1a;Java、Spring Boot、MyBatis 三、运行环境 开发工具&#xff1a;IDEA/eclipse 数据…

WebRTC视频 02 - 视频采集类 VideoCaptureModule

WebRTC视频 01 - 视频采集整体架构 WebRTC视频 02 - 视频采集类 VideoCaptureModule&#xff08;本文&#xff09; WebRTC视频 03 - 视频采集类 VideoCaptureDS 上篇 WebRTC视频 04 - 视频采集类 VideoCaptureDS 中篇 WebRTC视频 05 - 视频采集类 VideoCaptureDS 下篇 一、前言…

深度学习笔记14-卷积神经网络2

1.卷积神经网络的结构 卷积神经网络&#xff0c;是包含卷积运算且具有深度结构的前馈神经网络。在卷积神经网络中&#xff0c;包含卷积层、池化层和全连接层三种重要的结构。相比前馈神经网络&#xff0c;卷积层和池化层是新增的网络结构&#xff0c;在提取特征时&#xff0c;卷…

Python 正则表达式使用指南

Python 正则表达式使用指南 正则表达式&#xff08;Regular Expression, 简称 regex&#xff09;是处理字符串和文本的强大工具。它使用特定的语法定义一组规则&#xff0c;通过这些规则可以对文本进行匹配、查找、替换等操作。Python 提供了 re 模块&#xff0c;使得正则表达…

FPGA开发-逻辑分析仪的应用-数字频率计的设计

目录 逻辑分析仪的应用 数字频率计的设计 -基于原理图方法 主控电路设计 分频器设计 顶层电路设计 数字系统开发不但需要进行仿真分析&#xff0c;更重要的是需要进行实际测试。 逻辑分析仪的应用 测试方式&#xff1a;&#xff08;1&#xff09;传统的测试方式&#…

.NET 9.0 中 System.Text.Json 的全面使用指南

以下是一些 System.Text.Json 在 .NET 9.0 中的使用方式&#xff0c;包括序列化、反序列化、配置选项等&#xff0c;并附上输出结果。 基本序列化和反序列化 using System; using System.Text.Json; public class Program {public class Person{public string Name { get; se…

Linux 命令 | 每日一学,文本处理三剑客之awk命令实践

[ 知识是人生的灯塔&#xff0c;只有不断学习&#xff0c;才能照亮前行的道路 ] 0x00 前言简述 描述&#xff1a;前面作者已经介绍了文本处理三剑客中的 grep 与 sed 文本处理工具&#xff0c;今天将介绍其最后一个且非常强大的 awk 文本处理输出工具&#xff0c;它可以非常方便…

【第五课】Rust所有权系统(一)

目录 前言 所有权机制的核心 再谈变量绑定 主人变更-所有权转移 总结 前言 这节课我们来介绍下rust中最重要的一个点&#xff1a;所有权系统。这是网上经常说rust无gc的秘密所在。在开始之前&#xff0c;我们来想想JVM系语言&#xff0c;在做垃圾回收的过程&#xff0c;1.…

三周精通FastAPI:42 手动运行服务器 - Uvicorn Gunicorn with Uvicorn

官方文档&#xff1a;Server Workers - Gunicorn with Uvicorn - FastAPI 使用 fastapi 运行命令 可以直接使用fastapi run命令来启动FastAPI应用&#xff1a; fastapi run main.py如创建openapi.py文件&#xff1a; from fastapi import FastAPIapp FastAPI(openapi_url&…

任意文件下载漏洞

1.漏洞简介 任意文件下载漏洞是指攻击者能够通过操控请求参数&#xff0c;下载服务器上未经授权的文件。 攻击者可以利用该漏洞访问敏感文件&#xff0c;如配置文件、日志文件等&#xff0c;甚至可以下载包含恶意代码的文件。 这里再导入一个基础&#xff1a; 你要在网站下…

编写一个生成凯撒密码的程序

plain list(input("请输入需要加密的明文&#xff08;只支持英文字母&#xff09;&#xff1a;"))key int(input("请输入移动的位数&#xff1a;"))base_A ord(A)base_a ord(a)cipher []for each in plain:if each :cipher.append( )else:if each.i…