Swarm 框架登场:OpenAI 第 3 阶段「敲门砖」;马斯克的 Teslabot 实际有人远程操控丨 RTE 开发者日报

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、智谱开源文生图模型 CogView3-Plus,相关功能上线智谱清言 App

在这里插入图片描述

智谱技术团队今天宣布开源文生图模型 CogView3 及 CogView3-Plus-3B ,该系列模型的能力已经上线「智谱清言」App。

据介绍,CogView3 是一个基于级联扩散的 text2img 模型,其包含如下三个阶段:

  • 第一阶段: 利用标准扩散过程生成 512x512 低分辨率的图像。
  • 第二阶段: 利用中继扩散过程,执行 2 倍的超分辨率生成,从 512x512 输入生成 1024x1024 的图像。
  • 第三阶段: 将生成结果再次基于中继扩散迭代,生成 2048×2048 高分辨率的图像。

官方表示,在实际效果上,CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%,同时只需要 SDXL 大约 1/10 的推理时间。

CogView3-Plus 模型则在 CogView3(ECCV’24)的基础上引入了最新的 DiT 框架,以实现整体性能的进一步提升。据介绍,其采用 Zero-SNR 扩散噪声调度,并引入了文本-图像联合注意力机制。与常用的 MMDiT 结构相比,它在保持模型基本能力的同时,有效降低训练和推理成本。CogView-3Plus 使用潜在维度为 16 的 VAE。(@IT 之家)

2、Swarm 框架登场:OpenAI 第 3 阶段「敲门砖」,让专业的事交给专业的 AI 智能体做

在这里插入图片描述

OpenAI 公司推出了 Swarm 框架,旨在解决开发者在多智能体系统编排中面临的复杂挑战。Swarm 框架通过简化智能体的协调、执行和测试过程,让开发者能够更高效地管理、互动多个 AI 智能体。

OpenAI 朝 AI 第 3 阶段迈进

根据 OpenAI 公布五级量表,最新推出的 o1 模型处于第二阶段,即所谓的「推理者」(reasoners),而开发 multi-agent 符合第三阶段的目标要求。

Swarm 框架

Swarm 是一个实验性框架,协调、执行和测试多智能体,让其变得轻量且高度可控,其目标是让开发者能够以简便高效的方式管理多个 AI 智能体之间的互动。
Swarm 框架的核心在于智能体(agents)和交接(handoffs)两个基础抽象( primitive abstractions):

- 智能体: 每个智能体是特定指令与工具的组合,能够独立完成任务。
- 交接: 智能体可以在执行过程中随时将任务或对话交接给其他智能体,确保流程的流畅性和模块化。

该框架保持整体协调的高效性的同时,简化了复杂的智能体互动。

随着多智能体系统在 AI 研究和应用中的重要性日益增加,Swarm 框架为开发者提供了一个易于使用的工具,降低了技术门槛,增加了可及性。无论是用于研究、产品开发还是教育,Swarm 框架都为探索协调的多智能体 AI 提供了一个激动人心的机会。(@IT 之家)

3、马斯克的 Teslabot 实际有人远程操控

特斯拉 CEO 埃隆·马斯克在数日前的自动驾驶出租车发布会活动上展示了人形机器人 TeslaBot(原称 Optimus),该机器人在现场跳舞、交谈、玩游戏和倒饮料,非常之吸引现场的嘉宾观众。

据一位在活动现场与特斯拉工程师交谈的人士透露,机器人的反应都是在幕后人员的控制下完成的,而马斯克并未向观众明确说明这一事实。这一行为被揭露后引发了观众的失望和对马斯克技术宣传的质疑。

一些投资者对这一场特斯拉的发布会评价为「令人失望」,他们认为发布会缺乏具体细节,而且自动驾驶出租车(CyberCab)和 人形机器人(Teslabot)要到 2026 年才开始生产,投资者对于的交付时间表也认为过于遥远,所以当日特斯拉股票在发布会后便下跌,但即使如此,马斯克的一系列创新产品仍然让人期待。(@爱范儿)

4、古尔曼:苹果智能眼镜和带摄像头的 AirPods 可能于 2027 年推出

据彭博社的马克・古尔曼称,苹果正在准备其它一些基于视觉的产品,预计会有智能眼镜,类似于 Meta 与 Ray-Ban 的合作产品,以及带有摄像头的 AirPods。推出时间不会早于 2027 年,并且存在可能最终不会推出的情况。

根据该报告,苹果希望通过将视觉智能技术引入更多产品,来挽回他们在 Apple Vision Pro 的视觉智能方面数十亿美元的部分研发投资。苹果已经在 iPhone 16 中引入了该技术,下一步是将其引入眼镜形态的产品中。

这款眼镜不会是带有显示屏的完整的 AR 眼镜,而是一款内置摄像头、扬声器和麦克风的智能眼镜,类似于 Meta 的 Ray Ban 眼镜。

此外,苹果公司仍在计划推出带有摄像头的 AirPods,这一消息此前已有报道。(@IT 之家)

5、优必选发布全新一代工业人形机器人 Walker S1,进入比亚迪等汽车工厂实训

在这里插入图片描述

优必选发布了全新一代工业人形机器人 Walker S1,已进入比亚迪工厂执行搬运任务实训,实现全球首次人形机器人与无人物流车、无人叉车、工业移动机器人和智能制造管理系统的协同作业。

优必选表示,已经与东风柳汽、吉利汽车、一汽红旗、一汽-大众青岛分公司、奥迪一汽、富士康、顺丰在内的多家企业合作。截至目前,Walker S 系列已成为全球进入最多车厂实训的人形机器人。

Walker S1 主要参数如下:

  • 基本参数:身高 172cm、体重 76kg、负载行走 15kg
  • 360° 多模态感知:集成化头部设计、双耳鱼眼相机、3D 立体视觉
  • 一体化关节:创新型旋转驱动,最大扭矩 250N・m
  • 仿人灵巧手:6 个阵列式触觉压力传感器、全栈式灵巧操作策略库(@IT 之家)

02 有态度的观点

1、Meta 首席人工智能科学家 LeCun:AI 威胁人类论完全是胡说八道

Meta 首席人工智能科学家 Yann LeCun 近日在接受《华尔街日报》采访时表示,对人工智能对人类生存的威胁的担忧是「彻头彻尾的胡说八道(complete B.S. ) 」。

LeCun 是人工智能领域的一位先驱,曾获得图灵奖,目前担任纽约大学教授和 Meta 高级研究员。他此前曾在社交媒体上表示,在担心控制超级智能 AI 之前,我们需要先弄清楚如何设计一个比家猫更聪明的系统。

LeCun 在接受《华尔街日报》采访时详细阐述了他的观点,在回答有关人工智能变得足够聪明以至于对人类构成威胁的问题时,他说:「你将不得不原谅我的法语,但那是完全的胡说八道。」

LeCun 认为,今天的语言大模型缺乏一些关键的「猫级」能力,如持久记忆、推理、规划和对物理世界的理解。他认为,这些模型只是证明了「你可以操纵语言,但并不聪明」,它们永远不会产生真正的通用人工智能(AGI)。

LeCun 并不完全否认实现 AGI 的可能性,但他表示,需要新的方法来实现。他指出,他领导的 Meta 基础人工智能研究团队正在研究如何消化真实世界的视频,这可能是一种有前景的方向。(@IT 之家)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

在这里插入图片描述

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/446917.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

音视频开发:FFmpeg库的使用

文章目录 一、FFmpeg的介绍二、FFmpeg的安装三、FFmpeg的使用1.ffplay:播放音视频2.ffprobe:查看视频信息3.ffmpeg:处理视频(1)格式转换(2)帮助 四、参考资料 一、FFmpeg的介绍 FFmpeg 是使用广泛的多媒体框架,是一个强大的音视频…

element el-tree 自定义图标

除了自定义以外,下方代码还包含 tree自动展开 点击节点后节点聚焦 节点的click事件 节点查询 <template><el-inputplaceholder"请输入要查询的节点"v-model"filterText"clearable></el-input><el-treehighlight-currentclass&quo…

Flink05 Windows 操作轻松应对复杂的场景

Flink Windows 操作 上篇文章介绍了Flink 几种类型 Windows 本文介绍窗口操作相关API&#xff0c;以及各自使用场景 。 本期Flink Windows 相关操作apply/union/join/collect/CoMap/CoFlatMap Windows apply 通过实现WindowFunction或AllWindowFunction接口来完成的&#x…

考研C语言程序设计_编程题相关(持续更新)

目录 零、说明一、程序设计经典编程题(C语言实现)T1 求1~100的奇数T2 求n!T3 求1!2!3!...10!T4 在一个有序数组中查找具体的某个数字n(二分查找)T5 编写代码&#xff0c;演示多个字符从两端移动&#xff0c;向中间汇聚T6 模拟用户登录(三次机会)T7 输入三个数 并从大到小输出T8…

大一计算机课程之线性代数

《大一计算机课程之线性代数》 在大一的计算机课程中&#xff0c;线性代数是一门极为重要的基础学科&#xff0c;它就像一把神奇的钥匙&#xff0c;为计算机科学领域的诸多方面开启了智慧之门。 线性代数主要研究线性方程组、向量空间、线性变换等内容。对于计算机专业的学生…

【星汇极客】STM32 HAL库各种模块开发之DHT11模块

前言 本人是一名嵌入式学习者&#xff0c;在大学期间也参加了不少的竞赛并获奖&#xff0c;包括&#xff1a;江苏省电子设计竞赛省一、睿抗机器人国二、中国高校智能机器人国二、嵌入式设计竞赛国三、光电设计竞赛国三、节能减排竞赛国三等。 暑假的时候参加了太多的比赛&#…

从加载到对话:使用 Transformers 本地运行量化 LLM 大模型(GPTQ AWQ)

&#xff08;无需显卡&#xff09;使用 Transformers 在本地加载具有 70 亿参数的 LLM 大语言模型&#xff0c;通过这篇文章你将学会用代码创建属于自己的 GPT。 LLM 的加载、微调和应用涉及多个方面&#xff0c;今天我们先聚焦于加载&#xff0c;本文的难点仅在于正确安装和知…

护理陪护系统|护理陪护小程序|护理陪护软件定制

护理陪护系统是针对需要长期照护的患者和老年人开发的一套系统&#xff0c;旨在帮助用户更加方便地获取医疗、护理等服务。用户端功能是系统的重要组成部分&#xff0c;通过用户端功能的设计和开发&#xff0c;可以让用户更加方便快捷地使用系统。首先&#xff0c;用户端功能应…

中兴通讯举办AI“兴”视野沙龙:求真务实 推动AI健康、向善、普惠发展

近日&#xff0c;由中兴通讯主办的“AI‘兴’视野沙龙”在北京举行&#xff0c;中兴通讯首席发展官崔丽与多名业界大咖聚焦人工智能技术发展的前世今生、最新进展、应用趋势、产业融合新路径等热点话题展开深入交流。 数智经济大势所趋 机遇与挑战并存 崔丽谈到&#xff0c;当…

Java利用itextpdf实现pdf文件生成

前言 最近公司让写一个数据页面生成pdf的功能&#xff0c;找了一些市面代码感觉都太麻烦&#xff0c;就自己综合性整合了一个便捷的工具类&#xff0c;开发只需简单组装数据直接调用即可快速生成pdf文件。望大家一起学习&#xff01;&#xff01;&#xff01; 代码获取方式&am…

Graphviz是一个开源的图形可视化软件

官网没有给出代码示例&#xff0c;所以需要自己琢磨&#xff0c; 这里最底下给了一些简单的&#xff0c; 确实可以出很好看的图片 Graphviz介绍 Graphviz是一个开源的图形可视化软件&#xff0c;主要用于绘制各种类型的图表&#xff0c;如流程图、结构图、网络拓扑图等。它通…

cmake模板-支持编译动态/静态文件

代码链接&#xff1a;代码仓库 git clone https://gitee.com/etsuyou/cmake-template.git模板 模板截图 如何使用 在src和inc中写代码 此处用我默认提供的代码 ./go.sh cmake 生成Makefile ./go.sh make 生成bin文件和.a以及.so ./go.sh run app 运行 ./go.sh clean 以…

基于FPGA的ov5640摄像头图像采集(二)

之前讲过ov5640摄像头图像采集&#xff0c;但是只包了的摄像头驱动与数据对齐两部分&#xff0c;但是由于摄像头输入的像素时钟与HDMI输出的驱动时钟并不相同&#xff0c;所有需要利用DDR3来将像素数据进行缓存再将像素数据从DDR3中读出&#xff0c;对DDR3的读写参考米联客的IP…

安装TDengine数据库3.3版本和TDengine数据库可视化管理工具

安装TDengine数据库3.3版本和TDengine数据库可视化管理工具 一、下载安装包二、解压安装包三、部署四、启动服务五、进入数据库六、创建数据库、表和往表中插入数据七、测试 TDengine 性能八、使用数据库九、查询数据十、TDengine数据库可视化界面 一、下载安装包 TDengine-cl…

EXCEL怎么锁定单元格(锁定的单元格不能修改)

选中你的需要保护的单元格&#xff0c;然后点击鼠标右键&#xff0c;在弹出来的下拉菜单里面找到单元格格式 设置单元格格式&#xff0c;弹出来的对话框里找到右侧的保护&#xff0c;勾上锁定 找到审阅按钮&#xff0c;在下面找到更改下面的保护工作表按钮 具体保护的操作…

获取京东商品历史价格接口item_history_price介绍

接口开发背景 京东作为中国知名的电商平台&#xff0c;提供了丰富的商品和服务。为了更好地满足用户和商家的需求&#xff0c;京东开放平台推出了多种API接口&#xff0c;其中“item_history_price”接口用于获取指定商品的历史价格信息。这一接口的开发背景在于帮助用户判断当…

JavaSE——集合5:Set(HashSet的底层原理)(重要!!!)

目录 一、Set接口基本介绍 二、Set接口的常用方法 三、Set接口实现类——HashSet 四、HashSet(HashMap底层原理:重要!!!) (一)第一次添加元素 (二)第二次添加不同的元素 (三)添加重复的元素 1.仍旧走到了putVal(hash(key), key, value, false, true);方法 2.判断计算出…

java-02 数据结构-队列

在Java中&#xff0c;队列是一种常见的数据结构&#xff0c;用于在保持顺序的同时存储和检索数据。Java提供了java.util.Queue接口&#xff0c;它的常见实现包括ArrayDeque、LinkedList和PriorityQueue等。 如果你觉得我分享的内容或者我的努力对你有帮助&#xff0c;或者你只…

PyQt5常用功能四

⽂本涂鸦 写⼀些⽂本上下居中对齐的俄罗斯Cylliric语⾔的⽂字 import sys from PyQt5.QtWidgets import QWidget, QApplication from PyQt5.QtGui import QPainter, QColor, QFont from PyQt5.QtCore import Qtclass Example(QWidget):def __init__(self):super().__init__()…

趋势(一)利用python绘制折线图

趋势&#xff08;一&#xff09;利用python绘制折线图 折线图&#xff08; Line Chart&#xff09;简介 折线图用于在连续间隔或时间跨度上显示定量数值&#xff0c;最常用来显示趋势和关系&#xff08;与其他折线组合起来&#xff09;。折线图既能直观地显示数量随时间的变化…