Llama 3.2来了,多模态且开源!AR眼镜黄仁勋首批体验,Quest 3S头显价格低到离谱

如果说 OpenAI 的 ChatGPT 拉开了「百模大战」的序幕,那 Meta 的 Ray-Ban Meta 智能眼镜无疑是触发「百镜大战」的导火索。自去年 9 月在 Meta Connect 2023 开发者大会上首次亮相,短短数月,Ray-Ban Meta 就突破百万销量,不仅让马克·扎克伯格直呼 Amazing,更促使了谷歌、三星、字节跳动等国内外大厂的纷纷入局!

时隔一年,Meta 再次在 Connect 开发者大会上推出了智能眼镜新产品 Orion,这是该公司推出的首款全息 AR 眼镜,扎克伯格称其为世界上最先进的眼镜,将会改变未来人与世界的交互方式。

此外,按照惯例,Meta 通常会在 Connect 大会推出 Quest 头显新产品,今年亦是如此。鉴于去年发布的 Meta Quest 3 被用户们普遍反映价格过高,今年 Meta 推出了一款性能与 Quest 3 相近但价格更亲民的新头显 Quest 3S,这款头显被认为是当前市场上最佳的混合现实设备,可以提供极佳的超现实体验。

当然,作为 Meta 旗下备受瞩目的核心技术之一,Llama 模型也在此次发布会上迎来了重大更新。多模态 Llama 3.2 能够同时理解图像和文本,手机也能跑大模型,为其开源生态再添助益。

Meta 的 AR 梦想成真,Orion 眼镜开启全新交互时代

今年 4 月,为庆祝 Reality Labs 成立 10 周年,Meta 曾发布一篇文章概述该部门的发展历史,并在文中预告了其下一个核心产品——首款 AR 眼镜。Meta 表示,Quest 3 能够让用户在物理世界中与数字内容沉浸式互动,Ray-Ban Meta 眼镜让用户享受到 Meta AI 的实用性和娱乐性,而新款 AR 眼镜则会结合这两者的优点,实现最佳的技术融合。

随着 Meta Connect 2024 的临近,市场上越来越多的声音推测,这款 AR 眼镜将会在本次大会中发布。不出所望,今天,Meta 发布了其首款 AR 眼镜 Orion。

在这里插入图片描述

扎克伯格表示,Orion 致力于改变人与世界的交互方式,是有史以来最先进的 AR 眼镜,历经 10 年研发而成。它拥有最先进的 AR 显示屏、定制的硅芯片、碳化硅镜片、复杂的光波导 (waveguides)、uLED 投影仪等,多种技术加持让强大的 AR 体验能够在一副眼镜上运行,而所消耗的电力和重量仅为 MR 头显的一小部分。

在这里插入图片描述

简单来说,这种 AR 眼镜采用一种全新的显示架构,利用微型投影仪将光线投射到波导中,再将不同深度和大小的全息图投射到用户面前的世界,并由一块装在眼镜腿里的电池供电。例如,用户如果想与远方的朋友相聚,他们将以全息图的形式出现在客厅,就像真的在身旁一样。

值得一提的是,Orion 在镜框边缘嵌入了 7 个微型摄像头和传感器,并结合语音、眼动和手势追踪,配备 EMG 腕带,用户可以轻松地进行滑动、点击和滚动操作。例如,如果晨跑时想拍照,只需轻轻一按指尖,Orion 就能定格精彩瞬间。此外,只需轻敲手指,还能召唤纸牌游戏、国际象棋或全息乒乓球等娱乐活动。

英伟达创始人兼 CEO 黄仁勋都迫不及待试用啦!

在这里插入图片描述

最佳混合现实设备 Quest 3S,性价超高

继去年 Meta 在 Connect 大会上发布全球首款混合现实头显 Meta Quest 3 之后,Meta 今年推出了 Quest 3 的精简版本——Quest 3S。

在这里插入图片描述

扎克伯格表示,「Quest 3S 不仅性价比高,而且是目前市面上能买到的最佳混合现实设备!」它具备与 Quest 3 相似的核心功能,即高分辨率全彩混合现实,用户可以在物理世界和虚拟世界中「无缝穿越」,能够进行娱乐、健身、游戏、社交体验等一系列活动。不同的是,Quest 3S 改进了镜片,并在技术栈、有效分辨率和延迟等方面做了优化,其混合现实手部追踪软件表现更为出色。

混合现实的神奇之处在于,它将写实的空间带入元宇宙,让用户有一种身临其境的感觉,并在不同的体验间自由切换。比如,用户可以选择影院模式,把屏幕放大成一个电影院,获得最佳的剧场观看体验。

在现场演示中,扎克伯格展示了从 2D 移动应用到远程桌面的 PC 的沉浸式体验,用户可以打开屏幕并将其放置在任何位置,形成一个巨大的虚拟显示器,并进行工作。他提到,Meta 一直在与微软合作升级远程桌面功能,不久之后,这种功能或许就可以连接到 Windows 11 电脑上。

值得一提的是,Meta Quest 3S 以难以置信的价格提供超现实的体验,起价仅为 299.99 美元,将在 10 月 15 日上市。今年秋天购买 Quest 3S 的用户,还将获赠《Batman: Arkham Shadow》游戏的 VR 体验。

首个支持视觉任务的 Llama 模型,多模态且开源

除了重磅的硬件发布外,小扎还带来了 Llama 的更新,推出 Llama 3.2 模型。作为第一个支持视觉任务的 Llama 模型,Llama 3.2 能够同时理解图像和文本。其中包含适用于边缘和移动设备的中小型视觉模型 (11B 和 90B) 以及轻量级纯文本模型 (1B 和 3B),这两个类别均包括预训练版和指令微调版。值得一提的是,这些不同规格的模型均可通过 Meta AI 进行试用。

在这里插入图片描述

模型性能评估

研究人员在超过 150 个跨语言的基准数据集评估模型性能。结果显示,Llama 3.2 1B 和 3B 模型支持 128K tokens 的上下文长度,在遵循指令、总结、提示改写和工具使用等任务上,3B 模型优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型则能够与 Gemma 模型一争高下。

在这里插入图片描述

此外,研究人员评估了模型在图像理解和视觉推理基准的性能。结果显示,Llama 3.2 11B 和 90B 视觉模型可以无缝替代相应的文本模型,同时在图像理解任务上超越了诸如 Claude 3 Haiku 之类的闭源模型。

在这里插入图片描述

轻量级模型训练
对于 Llama 3.2 1B 和 3B 模型,研究人员采用剪枝和蒸馏两种方法,从 8B/70B 模型中提炼出高效的 1B/3B 模型。

具体而言,研究人员将 Llama 3.1 的 8B 和 70B 模型的 Logit Date 纳入预训练阶段,使用这些较大模型的输出 (logit date) 作为 token 级别的目标,进行结构化剪枝。剪枝完成后,研究人员利用知识蒸馏来恢复模型的性能。

Llama 3.2 1B 和 3B 模型剪枝和蒸馏示意图

模型演示 demo

视觉模型训练
Llama 3.2 的训练流程分为多个阶段。首先,从预训练的 Llama 3.1 文本模型开始。接着,研究人员添加图像适配器和编码器,并在大规模的噪声(图像、文本)配对数据上进行预训练。然后,在中等规模的高质量域内和知识增强的(图像、文本)配对数据上进行训练。

在后期训练中,研究人员采用与文本模型相似的方法,通过多轮对齐来进行监督微调、拒绝采样和直接偏好优化。研究人员使用 Llama 3.1 模型生成合成数据,对域内图像的问题和答案进行过滤和增强,并使用奖励模型对所有候选答案进行排序,从而确保高质量的微调数据。

此外,研究人员还引入了安全缓解数据,以打造一个兼具高度安全性和实用性的模型。最终,能够同时理解图像和文本的 Llama 3.2 模型诞生,标志着 Llama 模型在通向更丰富代理能力的道路上又迈出了重要的一步。

视觉模型演示

本地部署模型及时且安全
研究人员指出本地运行 Llama 3.2 模型有两大优势。首先,在响应速度上,由于处理全部在本地完成,提示和响应的速度可以达到接近即时的效果。

其次,在隐私安全上,本地运行模型无需将消息和日历等数据发送到云端,保障了用户隐私,使应用程序更加私密。通过本地处理,应用程序可以明确控制哪些查询留在设备上,哪些查询需要交由云端更大的模型来处理。

手机写作助手 demo 演示

坚守开源初心,模型部署更加简化和高效

Meta 始终坚守开源初心,为了大幅简化开发者在不同环境(包括单节点、内部部署、云端和设备)中使用 Llama 模型的流程,实现检索增强生成 (RAG) 和工具支持型应用的一键部署,并集成安全功能,Meta 宣布将分享首批官方 Llama Stack 发行版。

在这里插入图片描述

据官方介绍,Llama 3.2 模型将在 llama.com 和 Hugging Face 上提供下载,并将在包括 AMD、AWS、Databricks、Dell、Google Cloud、Groq、IBM、Intel、Microsoft Azure、NVIDIA、Oracle Cloud、Snowflake 等在内的合作伙伴平台上提供即时开发支持。

作为一贯的开源倡导者,扎克伯格曾在与黄仁勋的对谈中介绍道,「Meta 从开源生态中获益,已节省数十亿美元」。而 Llama 无疑是其打造开源生态的重要触手,Llama 3.2 进一步向视觉任务拓展,实现多模态,也势必将为其开源生态再添助益。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/437184.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

位运算(6)_只出现一次的数字 II

个人主页:C忠实粉丝 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝 原创 位运算(6)_只出现一次的数字 II 收录于专栏【经典算法练习】 本专栏旨在分享学习算法的一点学习笔记,欢迎大家在评论区交流讨论💌 目录 …

psutil库的使用说明

前言 psutil是一个跨平台的库,用于获取系统的进程和系统利用率(包括 CPU、内存、磁盘、网络等)信息。 目录 安装 应用场景 常用方法 一、系统信息相关函数 二、进程信息相关函数 三、网络信息相关函数 四、其他实用函数 使用样例 监控应…

Could not find com.mapbox.mapboxsdk:mapbox-android-accounts:0.7.0.解决

AndroidStudio编译APK出现如下错误: Could not find com.mapbox.mapboxsdk:mapbox-android-accounts:0.7.0. 出现上面错误原因是因为没有打开对应的仓库导致的, 手动添加如下创建地址可解决: maven { url https://maven.aliyun.com/repos…

Windows远程Kylin系统-xrdp

Windows远程Kylin系统-xrdp 一. 查看开放端口 查看是否有3389端口二. 安装xrdp Kylin对应的是centos8 下载链接:https://rhel.pkgs.org/8/epel-x86_64/xrdp-0.10.1-1.el8.x86_64.rpm.html rpm -Uvh 包名 systemctl start xrdp 启动服务 systemctl enable xrdp …

【HTML5】html5开篇基础(4)

1.❤️❤️前言~🥳🎉🎉🎉 Hello, Hello~ 亲爱的朋友们👋👋,这里是E绵绵呀✍️✍️。 如果你喜欢这篇文章,请别吝啬你的点赞❤️❤️和收藏📖📖。如果你对我的…

解决问题AttributeError: “safe_load“ has been removed, use

解决问题AttributeError: "safe_load" has been removed, use~ 1. 问题描述2. 解决方法 1. 问题描述 在复现cdvae代码时,运行 python scripts/compute_metrics.py --root_path MODEL_PATH --tasks recon gen opt评估模型时,出现以下问题。 …

Python批量下载PPT模块并实现自动解压

日常工作中,我们总是找不到合适的PPT模板而烦恼。即使有免费的网站可以下载,但是一个一个地去下载,然后再批量解压进行查看也非常的麻烦,有没有更好方法呢? 今天,我们利用Python来爬取一个网站上的PPT&…

【ios】---swift开发从入门到放弃

swift开发从入门到放弃 环境swift入门变量与常量类型安全和类型推断print函数字符串整数双精度布尔运算符数组集合set字典区间元祖可选类型循环语句条件语句switch语句函数枚举类型闭包数组方法结构体 环境 1.在App Store下载Xcode 2.新建项目(可以先使用这个&…

Hadoop HDFS命令操作实例

一.创建与查看HDFS目录 每次重启后,Jps和java -version执行出来的结果不符合就使用 source ~/.bash_profile 是在 Unix/Linux 系统上用来重新加载用户的 Bash 配置文件 ~/.bash_profile 的命令。这条命令的作用是使得当前的 Bash 环境重新读取并应用 ~/.bash_pro…

PHP安装后Apache无法运行的问题

问题 按照网上教程php安装点击跳转教程,然后修改Apache的httpd.conf文件,本来可以运行的Apache,无法运行了 然后在"C:\httpd-2.4.62-240904-win64-VS17\Apache24\logs\error.log"(就是我下载Apache的目录下的logs中&am…

当AI成为作家,人工智能在写作领域的崛起

AI写作技术的应用正在多个领域展现出其强大的潜力和价值,它不仅极大地提升了内容创作的效率,还为创作者提供了一个全新的创作伙伴。 随着技术的进步,AI写作工具越来越能够理解复杂的语境和用户需求,帮助创作者生成高质量的内容。…

排水系统C++

题目: 样例解释: 1 号结点是接收口,4,5 号结点没有排出管道,因此是最终排水口。 1 吨污水流入 1 号结点后,均等地流向 2,3,5 号结点,三个结点各流入 1/3 吨污水。 2 号结点流入的 1/3​ 吨污水将均等地流向…

深度学习与数学归纳法

最近发现,深度学习可以分为两个主要的阶段,分别是前向推理以及反向传播,分别对应着网络的推理和参数训练两个步骤。其中推理有时候也称为归纳推理。 在做参数训练的时候,本质上是在利用历史数据求网络参数的先验分布; …

Java 基础语法 Day10

一、异常 1.1异常的基本处理 1.抛出异常:throw 2.捕获异常:try-catch 1.2异常的作用 1.定位程序bug的关键信息 2.可以作为方法内部的一种特殊返回值,通知给上层调用,方便处理 //需求:将两个数的除返回 public cla…

音视频入门基础:FLV专题(9)——Script Tag简介

一、SCRIPTDATA 根据《video_file_format_spec_v10_1.pdf》第75页到76页,如果某个Tag的Tag header中的TagType值为18,表示该Tag为Script Tag(脚本Tag,又称Data Tag、SCRIPTDATA tag)。这时如果Filter的值不为1表示未加…

UG NX二次开发(C++)-建模-采用NXOpen获取拉伸特征的信息

文章目录 1、前言2、创建一个特征3 采用NXOpen来实现拉伸特征信息的获取1、前言 UG NX二次开发过程中,大部分初学者喜欢用UFun函数来实现UG NX二次开发的功能,因为相较于NXOpen,UFun函数简单易懂;但是有时UFun函数如果初始值设置不好,出现的错误也比较难排查。比如对于拉…

Spark SQL分析层优化

导读:本期是《深入浅出Apache Spark》系列分享的第四期分享,第一期分享了Spark core的概念、原理和架构,第二期分享了Spark SQL的概念和原理,第三期则为Spark SQL解析层的原理和优化案例。本次分享内容主要是Spark SQL分析层的原理…

Redis篇(Redis原理 - 数据结构)(持续更新迭代)

目录 一、动态字符串 二、intset 三、Dict 1. 简介 2. Dict的扩容 3. Dict的rehash 4. 知识小结 四、ZipList 1. 简介 2. ZipListEntry 3. Encoding编码 五、ZipList的连锁更新问题 六、QuickList 七、SkipList 八、RedisObject 1. 什么是 redisObject 2. Redi…

用 API 实现 AI 视频摘要:动手制作属于你的 AI 视频小助手

AI 视频摘要想必你一定不陌生,在各大视频平台,比如 B 站,评论区的 AI 视频小助手就如雨后春笋般遍地都是。 今天,让我们来填了这“护城河”,站到墙上看一看它的全貌。 简而言之,AI 视频摘要的工作流程如下&…

基于Spring Boot+Unipp的中考体测训练小程序(协同过滤算法、图形化分析)【原创】

🎈系统亮点:协同过滤算法、图形化分析; 一.系统开发工具与环境搭建 1.系统设计开发工具 后端使用Java编程语言的Spring boot框架 项目架构:B/S架构 运行环境:win10/win11、jdk17 前端: 技术:框…