RAG 工业落地方案框架(Qanything、RAGFlow、FastGPT、智谱RAG)细节比对!CVPR自动驾驶最in挑战赛赛道,全球冠军被算力选手夺走了

RAG 工业落地方案框架(Qanything、RAGFlow、FastGPT、智谱RAG)细节比对!CVPR自动驾驶最in挑战赛赛道,全球冠军被算力选手夺走了。

在这里插入图片描述

本文详细比较了四种 RAG 工业落地方案 ——Qanything、RAGFlow、FastGPT 和智谱 RAG,重点分析了它们在知识处理、召回模块、重排模块、大模型处理、Web 服务和切词处理等方面的具体实现。Qanything 在 rerank 模块设计上表现出色;RAGFlow 在文档处理方面优势明显;FastGPT 提供了高度动态配置的模块;智谱 RAG 则在领域数据上的模型微调上有着特殊的优势。每个方案都有其独特的技术细节和适用场景,强调了在实际应用中,选择合适的技术实现以及对细节的精细化处理对于项目的成功至关重要。

用强化学习解决现实问题:Stochasticity、Scale、GAE与Curriculum Learning
文章探讨了强化学习在现实问题解决中的应用,特别是如何处理随机性(Stochasticity)和规模(Scale)问题。作者通过实例说明了在手机操作系统中完成查资料和购物任务的 RL 模型,强调了显式建模随机性的重要性。为了应对数据需求,开发了多机分布式并行脚本以大规模收集数据。此外,文章提出了使用任务完成情况作为整体轨迹的奖励,而非单步奖励,以简化评估过程。
在模型选择上,作者使用了参数量为 1.5B 的小模型,并通过与 GPT-4 的比较展示了其性能优势。文章还提供了 base 模型选择的建议,即选择性能不差且大小适中的模型,以便于训练。算法方面,提出了 Filtered AWR 和 GAE 的简化版本,以及 Automatic Curriculum Learning 策略,这些都是为了更好地适应现实问题的复杂性。实验结果显示,所提出的方法在性能上超越了现有的 agent,如 GPT-4 和 Gemini,并在相同数据集上也表现出色。作者最终开源了代码和模型,邀请社区参与和验证这些研究成果。

在这里插入图片描述

Chameleon和Florence-2
Chameleon 模型采用前融合技术,通过单一 tokenizer 同时处理视觉和语言信息,实现端到端的多模态学习。它使用 VQGAN 进行图像编码,将图像转换为离散的 tokens,并与文本 tokens 一起输入到 Transformer 模型中。这种方法使得不同模态的特征能够在同一表征空间内被有效地关联,提高了模型学习的效率。
Florence-2 模型虽然采用后融合方式,但在多 CV 任务上展现了卓越的性能,能够处理包括 VQA、视觉地面化、OCR 等多种任务。它的模型规模较小,但通过多任务学习,取得了与大型模型相当的效果。Florence-2 的成功表明,多模态模型在处理复杂的计算机视觉任务时,不仅要关注前融合技术,还要优化模型结构和训练方法,以适应实际应用的需求。

在这里插入图片描述

Agent Attention:集成 Softmax 和 Linear 注意力机制
注意力机制 (Attention module) 是 Transformers 中的关键组成部分。虽然全局的注意力机制具有很高的表征能力,但其计算成本较大,限制了其在各种场景下的适用性。本文提出一种新的注意力范式 Agent Attention,目的在计算效率和表征能力之间取得良好的平衡。具体而言,Agent Attention 表示为四元组 (𝑄,𝐴,𝐾,𝑉) ,在传统的注意力模块中引入了一组额外的 Agent token 𝐴 。Agent token 首先充当 Query token 𝑄 的代理来聚合来自 𝐾 和 𝑉 的信息,然后将信息广播回 𝑄。鉴于 Agent token 的数量可以设计为远小于 Query token 的数量,代理注意力明显比 Softmax 注意力更有效,同时保留了全局上下文建模能力。
有趣的是,本文展示了 Agent attention 等效于 Linear attention 的广义形式。因此,代理注意力无缝集成了强大的 Softmax attention 和高效的 Linear attention。
作者通过大量实验表明,Agent attention 在各种视觉任务中证明了有效性,包括图像分类、目标检测、语义分割和图像生成。而且,代理注意力在高分辨率场景中表现出显着的性能,这得益于其线性注意力性质。例如,当应用于 Stable Diffusion 时,Agent attention 会加速生成并显着提高图像生成质量,且无需任何额外的训练。

在这里插入图片描述

昇腾AI原生创新算子挑战赛S1——算子优化详解
昇腾 AI 原生创新算子挑战赛 S1是一个旨在优化 AI 算子性能的竞赛。竞赛分为初赛和决赛两个阶段,通过对算子进行原生优化,提高其在昇腾处理器上的执行效率。初赛要求参赛者对指定算子进行优化,并通过评测系统评估性能。评测标准包括性能提升比例和最终性能排名。决赛则是邀请初赛中表现最佳的选手进行线下深度优化比赛。竞赛提供了算子优化的学习资源,包括基础知识、实践技巧和高级优化方法。重点强调技术细节,如算子内存访问优化、计算密集型操作简化、并行化处理等,以实现更高效的 AI 计算。此外,竞赛鼓励参赛者探索创新的优化策略,以期在未来的 AI 领域中实现更大的性能突破。

华泰 | 电子:AI大模型需要什么样的硬件?
AI 大模型技术的快速发展对硬件产品提出了新的要求。在技术细节上,AI 大模型需要更高的算力支持,这导致了 SoC 中 NPU 算力的提升和存储容量的扩展。例如,AI PC 的推出需要具备 NPU 提供的边缘算力能力,以及内置大模型的能力。在软件层面,AI 大模型的应用推动了系统架构和应用方面的匹配,如 AI 智能手机的智能体开发平台和专属智能体的提供。此外,AI 大模型在具身智能、自动驾驶和人形机器人等领域的应用,涉及到感知、决策和控制等多个环节的技术细节,这些细节包括但不限于大模型的多模态能力、运动控制算法的优化以及硬件级的安全芯片的使用。在云计算方面,AI 大模型的部署和服务化,如 MaaS 模式,也依赖于高效的算力和数据处理技术。

在这里插入图片描述

HuggingFace&Github

01
Maestro
Maestro是一个Python框架,可以利用Anthropic的AI模型(如Opus和Haiku)来协调和执行复杂的任务。它可以将目标任务分解为更小的可管理子任务,利用子模型独立执行这些子任务,然后将结果汇总优化为最终输出。这种AI辅助的任务分解和执行方法可以提高复杂目标的完成效率和质量。
https://github.com/Doriandarko/maestro

02
DiffSynth-Studio
DiffSynth-Studio是一个基于扩散模型的视频合成框架,提供了多种创新性功能,包括视频合成、去闪烁、卡通风格渲染等。它重构了文本编码器、UNet、VAE等核心架构,在保持与开源社区模型兼容的同时,也大幅提高了计算性能。
DiffSynth-Studio支持多种先进的扩散模型,如Stable Diffusion、ControlNet、Stable Video Diffusion等,并且还提出了ExVideo等新技术来增强视频生成的能力。

https://github.com/modelscope/DiffSynth-Studio


CVPR自动驾驶最in挑战赛赛道,全球冠军被算力选手夺走了

浪潮信息AI团队,在自动驾驶领域再夺一冠!

不久前,计算机视觉领域的顶级学术会议CVPR在全球目光注视中顺利落幕,并正式公布了最佳论文等奖项。除诞生了绝佳的10 篇论文之外,另一场备受关注的自动驾驶国际挑战赛也在同期结束了“巅峰厮杀”。

就在CVPR 2024自动驾驶国际挑战赛“Occupancy & Flow”赛道中,浪潮信息AI团队以48.9%的出色成绩,从全球90余支顶尖AI团队中脱颖而出,摘下桂冠。

这也是该团队在2022年、2023年登顶nuScenes 3D目标检测榜单后,面向Occupancy技术的又一次实力展示。

CVPR 2024自动驾驶国际挑战赛是国际计算机视觉与模式识别会议(IEEE/CVF Conference on Computer Vision and Pattern Recognition)的一个重要组成部分,专注于自动驾驶领域的技术创新和应用研究。今年的CVPR自动驾驶国际挑战赛赛道设置也非常之有意思了,完整地包含了感知、预测、规划三大方向七个赛道。

此次浪潮信息AI团队所登顶的占据栅格和运动估计(Occupancy & Flow)赛道,也正是本届CVPR自动驾驶国际挑战赛最受关注的赛道,聚焦感知任务,吸引了全球17个国家和地区,90余支顶尖AI团队参与挑战。

比赛提供了基于nuScenes数据集的大规模占用栅格数据与评测标准, 要求参赛队伍利用相机图像信息对栅格化三维空间的占据情况(Occupancy)和运动(Flow)进行预测,以此来评估感知系统对高度动态及不规则驾驶场景的表示能力。

占据栅格 Occupancy:挑战更精细的环境感知与预测
道路布局的复杂性、交通工具的多样性以及行人流量的密集性,是当前城市道路交通的现状,也是自动驾驶领域面临的现实挑战。为了应对这一挑战,有效的障碍物识别和避障策略,以及对三维环境的感知和理解就变得至关重要。

传统的三维物体检测方法通常使用边界框来表示物体的位置和大小,但对于几何形状复杂的物体,这种方法往往无法准确描述其形状特征,同时也会忽略对背景元素的感知。因此,基于三维边界框的传统感知方法已经无法满足复杂道路环境下的精准感知和预测需求。

Occupancy Networks(占据栅格网络)作为一种全新的自动驾驶感知算法,通过获取立体的栅格占据信息,使系统能够在三维空间中确定物体的位置和形状,进而有效识别和处理那些未被明确标注或形状复杂的障碍物,如异形车、路上的石头、散落的纸箱等。

这种占据栅格网络使得自动驾驶系统能够更准确地理解周围的环境,不仅能识别物体,还能区分静态和动态物体。并以较高的分辨率和精度表示三维环境,对提升自动驾驶系统在复杂场景下的安全性、精度和可靠性至关重要。

浪潮信息AI团队创赛道最高成绩
在占据栅格和运动估计(Occupancy & Flow)赛道中,浪潮信息AI团队以48.9%的绝佳性能表现,创下本赛道最高成绩。

具体而言,团队所提交的“F-OCC”算法模型,凭借先进的模型结构设计、数据处理能力和算子优化能力,实现了该赛道最强模型性能,在RayIoU(基于投射光线的方式评估栅格的占用情况)及mAVE(平均速度误差)两个评测指标中均获得最高成绩。

更简洁高效的模型架构,实现运算效率与检测性能双突破
首先,模型整体选择基于前向投影的感知架构,并采用高效且性能良好的FlashInternImage模型。

同时,通过对整体流程进行超参调优、算子加速等优化,在占据栅格和运动估计均获得最高分的同时,提升了模型的运算效率,加快了模型迭代与推理速度。

在实际应用场景中,这种改进使得模型能够更快速、高效地处理大规模3D体素数据,使得自动驾驶车辆能更好地理解环境,进而提升决策的准确度和实时性。

更强大完善的数据处理,全面提升模型检测能力
在数据处理方面,比赛提供的体素(Voxel)标签包含了大量在图像中无法观测到的点,例如被物体遮挡的体素和物体内部不可见的体素,这些标签在训练过程中会对基于图像数据的预测网络训练产生干扰。

在训练数据中,浪潮信息AI团队通过模拟LiDAR光束的方法,生成可视化掩码,提升了模型的预测精度;另一方面,通过引入感知范围边缘的体素点参与训练,有效解决出现在感知边缘区域的误检问题,将模型的整体检测性能提升11%。

更精细的3D体素编码,模型占据预测能力提升超5%
在3D体素特征编码模块中,该算法团队将具有较大感知范围和编码能力的可形变卷积操作应用于3D体素数据,以提升3D特征的表示能力。

通过使用CUDA对可形变3D卷积(DCN3D)进行实现与优化,大幅提升了模型的运算速度,并有效降低了显存消耗。

通过DCN3D替代传统3D卷积,模型整体占据预测能力提升超5%。

此外,基于开源大模型,浪潮信息AI团队也通过优化图像encoder模型和特征融合对齐方式,并从CoT(Chain of Thought)、GoT(Graph of Thought)、Prompt工程等方面优化,提升了多模态模型对自动驾驶BEV图像的感知理解能力。最终以74.2%的成绩,摘得本届CVPR自动驾驶国际挑战赛 “大语言模型在自动驾驶中的应用”(LLM4AD)赛道的第五名。

2022年,浪潮信息AI团队摘得nuScenes竞赛的纯视觉3D目标检测任务(nuScenes Detection task)第一名,并一举将关键性指标NDS提高至62.4%。

2023年,这支团队再度夺冠,以77.6%的高分成绩再创3D目标检测全赛道最高成绩。

从BEV纯视觉到BEV多模态,再至如今凭借“F-OCC”算法模型再度登顶CVPR 2024自动驾驶国际挑战赛, 占据栅格和运动估计任务(Occupancy & Flow)榜首。浪潮信息AI团队逐步探索,一路绝杀,为探索更高级别的自动驾驶技术提供了有力的支撑和经验。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/374597.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

不仅是输出信息,console.log 也能玩出花

console.log 是 JavaScript 中一个常用的函数,用于向控制台输出信息。 console.log 虽然主要用于调试目的,但也包含了一些有趣的用法, console.log 不仅能输出文本,还能以更丰富的方式展示信息。 比如我们打开 B 站,然…

79. UE5 RPG 创建技能冷却和消耗

在这一篇里面,我们接着优化技能,现在角色添加的主动技能能够同步到ui上面。我们在这一篇文章里面,完善技能的消耗(释放技能减少蓝量)和冷却机制。 我们可以看到,在技能类默认值这里,可以设置它的…

【YashanDB知识库】YashanDB 开机自启

【问题分类】 YashanDB 开机自启 【关键字】 开机自启,依赖包 【问题描述】 数据库所在服务器重启后只拉起monit、yasom、yasom进程,缺少yasdb进程: 【问题原因分析】 数据库安装的时候未启动守护进程 【解决 / 规避方法】 进入数据库之前…

问题清除指南|Dell OptiPlex 7070 升级 win11 开启 TPM 2.0 教程

前言:最近想把实验室台式机的系统从 Windows 10 升级到 Windows 11,遇到一点小问题,在此记录一下解决办法。 ⚠️ 注:本教程仅在 Dell OptiPlex 7070 台式机系统中测试有效,并不保证其余型号机器适用此教程。 参考链接…

计算机网络体系结构解析

OSI参考模型 与 TCP/IP模型 如图所示 TCP/IP模型有几层 应用层:只需要专注于为用户提供应用功能 HTTP、SMTP、Telnet等,工作在操作系统中的用户态,传输层及以下工作在内核态传输层:为应用层提供网络支持(TCP、UDP传…

谷粒商城实战-25-分布式组件-SpringCloud Alibaba-Nacos配置中心-加载多配置集

文章目录 一,拆分配置集二,配置文件中配置多配置集1,引用多配置集2,验证 三,多配置集总结1,使用场景2,优先级 这一节介绍如何加载多个配置集。 大多数情况下,我们把配置全部放在一个…

Linux系统学习 —— 计算机基础(笔记篇)

一、电脑硬件 电脑硬件由输入,控制计算,输出三部分组成。 输入部分包括键鼠,读卡器(外部接口),扫描仪(打印机的扫描仪)。计算控制部分包括CPU , 内存,硬盘&…

【Git基本操作】添加文件 | 修改文件 | 及其各场景下.git目录树的变化

目录 1. 添加文件&add操作和commit操作 2. .git树状目录的变化 3. git其他操作 4. 修改文件 4.1 git status 4.2 git diff 1. 添加文件&add操作和commit操作 add操作:将工作区中所有文件的修改内容 添加进版本库的暂存区中。commit操作:…

『Django』自带的后台

theme: smartblue 本文简介 点赞 关注 收藏 学会了 上一篇讲了 Django 操作 MySQL 的方法,讲了如何创建模型,如何对数据库做增删改查的操作。但每次修改数据都要写代码,多少有点麻烦。 有没有简单一点的方法呢? 有的有的&#…

鸿蒙语言基础类库:【@ohos.util.Vector (线性容器Vector)】

线性容器Vector 说明: 本模块首批接口从API version 8开始支持。后续版本的新增接口,采用上角标单独标记接口的起始版本。开发前请熟悉鸿蒙开发指导文档:gitee.com/li-shizhen-skin/harmony-os/blob/master/README.md点击或者复制转到。 Vect…

C语言 结构体和共用体——结构体所占内存的字节数

目录 结构体所占内存的字节数 结构体所占内存的字节数

极验语序点选验证码识别(一)

注意,本文只提供学习的思路,严禁违反法律以及破坏信息系统等行为,本文只提供思路 极验文字点选验证码不必多说,很多小伙伴,借助标注工具或者打码平台标注完数据集后,使用开源的目标检测网络即可完成,欢迎收看我之前的文章: Pytorch利用ddddocr辅助识别点选验证码 或者使…

d3dcompiler_43.dll文件是什么?如何快速有效的解决d3dcompiler_43.dll文件丢失问题

dcompiler_43.dll 是一个Windows系统中的系统文件,属于DirectX软件的一部分。这个dcompiler_43.dll(动态链接库)文件主要用于处理与3D图形编程有关的任务,是运行许多游戏和高级图形程序必需的组件之一。那么如果电脑丢失d3dcompil…

Unity之OpenXR+XR Interaction Toolkit实现 Gaze眼部追踪

使用 Unity OpenXR 实现Gaze眼部追踪 在虚拟现实(VR)和增强现实(AR)应用中,眼动追踪是一项强大而受欢迎的技术。它可以让开发者更好地理解用户的注意力和行为,并创造出更加沉浸和智能的体验。在本文中,我们将探讨如何使用 Unity OpenXR 实现Gaze眼部追踪功能。 Unity …

Flutter-实现物理小球碰撞效果

效果 引言 在Flutter应用中实现物理动画效果,可以大大提升用户体验。本文将详细介绍如何在Flutter中创建一个模拟物理碰撞的动画小球界面,主要代码实现基于集成sensors_plus插件来获取设备的加速度传感器数据。 准备工作 在开始之前,请确保…

聊聊大模型如何为敏捷研发提效

这是鼎叔的第一百零二篇原创文章。行业大牛和刚毕业的小白,都可以进来聊聊。 欢迎关注本公众号《敏捷测试转型》,星标收藏,大量原创思考文章陆续推出。本人新书《无测试组织-测试团队的敏捷转型》已出版(机械工业出版社&#xff…

红日靶场----(三)2.漏洞利用

上期的通过一句话木马实现对目标主机的持久后门 我使用的是蚁剑,蚁剑安装及使用参考: 下载地址: GitHub - AntSwordProject/AntSword-Loader: AntSword 加载器 安装即使用: 1. 快速入门 语雀 通过YXCMS的后台GETSHELL 利用…

设计模式探索:策略模式

1. 什么是策略模式(Strategy Pattern) 定义 策略模式(Strategy Pattern)的原始定义是:定义一系列算法,将每一个算法封装起来,并使它们可以相互替换。策略模式让算法可以独立于使用它的客户端而…

算法day03 桶排序 数据结构分类 时间复杂度 异或运算

学数据结构之前 必看_哔哩哔哩_bilibili 1.认识复杂度和简单排序算法_哔哩哔哩_bilibili 桶排序(Bucket sort)------时间复杂度为O(n)的排序方法(一)_多桶排序时间复杂度-CSDN博客 桶排序 测试场景:数组中有10000个随…

PyTorch SummaryWriter TensorBoard 中进行可视化

在 PyTorch 中,SummaryWriter 通常用于在训练过程中记录各种数据,以便在 TensorBoard 中进行可视化。 - 安装: pip install tensorboard -i https://mirrors.aliyun.com/pypi/simple/ from torch.utils.tensorboard import SummaryWriter…