VLM 系列——Qwen2.5 VL——论文解读——前瞻(源码解读)

引言

        20250212苹果突然被爆将与阿里巴巴合作为中国 iPhone 用户开发人工智能功能。苹果从 2023 年就已经开始测试各类中国头部 AI 大厂开发的 AI 模型。去年,原本选定百度作为主要合作伙伴,但双方的合作并不顺利,百度为“Apple Intelligence”开发模型的进展未达苹果标准。近几个月苹果开始考虑其他选项,对腾讯、字节跳动、阿里巴巴以及 DeepSeek 开发的模型进行评估。最终,阿里被苹果选中。

解读:“阿里是当下苹果最好的选择,甚至可能没有之一”

优势

1)用户优势:阿里巴巴掌握的中国消费者个人数据比百度更多,因此能帮助“苹果智能”为中国用户提供更个性化的服务。

2)模型能力够强、开源社区认可:Qwen 系列模型主打全尺寸、全功能。除了旗舰模型闭源商用外,Qwen 小到手机也能运行的 1.5B(iPhone 的内存限制,大概就支持 1-3B 参数的模型端侧运行),大到 110B,基本上覆盖了开源社区的绝大多数需求,因而在全球开源社区中影响力很大。类 Llama 架构,能很好与各种 Infra 对接(苹果工程师也容易对接)。

3)云业务增加优势:端侧模型想要实现更好的功能,也需要结合用户数据做本地化训练,而这部分数据也不可能出境。阿里云做支持部署和训练,从商务、客户服务、技术支持等维度看,阿里云具备全面的团队支持。

deepseek?

1)模型的尺寸不全、云 Infra 链路、现实商用方向的对齐。

2)最新的 Qwen2.5-Max 其实是赢过 DeepSeek V3 的。非推理模型适用:用户常用场景“长输入、短输出”的场景,比如总结一篇文章主要内容、对多个信源进行总结等,且价格便宜。

PS:Deep seek o1/R1 推理模型虽然更强,但这价格贵、更适用于“短输入、长输出”。

测试

官方特性示例

1)万物识别

大幅扩大了可识别的图像类别量级:不仅包括植物、动物、著名山川的地标,还包括影视作品中的 IP,以及各种各样的商品。

2)视觉定位

Qwen2.5-VL 可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体,并能够为坐标和属性提供稳定的 JSON 输出。

3)结构化输出

对于发票、表单、表格等数据,支持其内容的结构化输出,惠及金融、商业等领域的应用。

4)理解长视频和捕捉事件

引入了动态帧率(FPS)训练和绝对时间编码技术。这样一来,模型不仅能够支持小时级别的超长视频理解,还具备秒级的事件定位能力。

5)Agent

直接作为一个视觉 Agent,可以推理并动态地使用工具,初步具备了使用电脑和使用手机的能力。

Qwen2.5 VL!Qwen2.5 VL!Qwen2.5 VL! | Qwen

技术细节

PS:技术报告未出,这里只有公开blog 和coding来展开,不涉及训练数据、训练细节。主要是如下新特性对应的细节,qwen2-vl 见我的相关博客:VLM 系列——Qwen2 VL——论文解读_qwen vlm-CSDN博客

        与 Qwen2-VL 相比,Qwen2.5-VL 增强了模型 对 空间尺度(动态原图输入&非归一化定位框)和 时间(动态fps绝对实现编码)的感知能力,并进一步简化了网络结构(ViT 架构与LLMs一致,采用了RMSNormSwiGLU 结构,但是是全注意力+窗口注意力交替VIT)以提高模型效率。

        ps: 下图和官方图略有区别,见红色个人理解部分,欢迎讨论。其中需要注意真实的代码实现也不是这么算的,而是秒级别的一个整数,可以看本文后面的内容。

空间尺度

1)动态地将不同尺寸的图像转换为不同长度的 token。

2)直接使用图像的实际尺寸来表示检测框和点等坐标,而不进行传统的坐标归一化,这使得模型能够直接学习图像的尺度。

*)如果做定位,需要自己调用qwen util库的的 smart_resize 函数获得最终resieze 后的分辨率,这个才是最终输入模型的,然后检测结果也是基于这个的。

时间尺度

1)引入了动态 FPS (每秒帧数)训练。测试时可以自己调节参数。

2)绝对时间编码,将 mRoPE id 直接与时间流速对齐。这使得模型能够通过时间维度 id 的间隔来学习时间的节奏。

*-1)他只具备最小到秒级别定位,所以注意输入fps(最大2)\nframe(介于模型配置文件外,还要注意不要大于2*视频之间)参数。

*-2)官方图可能是错的:一方面真实计算不是这个逻辑,另一方面及时是这个逻辑也是不对的。

*-3)关于源码:

    用户设定:

    fps(每秒帧数):视频的帧率,设定为 1。这意味着每秒处理一帧。通过utils库的smart_nframes转换为video_sample_fps,然后再通过Transformers 源码qwen2.5vl 的Qwen2_5_VLProcessor 函数转换为second_per_grid_ts。

    tokens_per_second: 配置文件写死为2,源码看其实和temporal_patch_size是一个东西,因为second_per_grid_ts仅仅是两帧间的间隔是一帧长度,最终位置编码需要三个帧之间的间隔两个帧长度。

    temporal_patch_size:构成一个时间片段的帧数。在这里是 2 帧。对应输入3dcnn 里面的维度为2*Chanel*height*weight。

    计算来的:

    interval:时间位置 ID 的步长,计算公式为 tokens_per_second * temporal_patch_size / fps。在这个例子中,25 * 2 / 1 = 50。这意味着每个时间片段在时间位置 ID 上将有 50 的差异。

    second_per_grid_ts = [self.image_processor.temporal_patch_size / tmp for tmp in fps] fps 其实是video_sample_fps_list, 是根据用户的输入n-frame 或者fps(还需要min max frames) 算出来的。

    time_tensor = expanded_range * second_per_grid_t * self.config.vision_config.tokens_per_second

视觉编码器

1)从头开始训练了一个原生动态分辨率的 ViT,包括 CLIP、视觉-语言模型对齐和端到端训练等阶段。

2)为了解决多模态大模型在训练和测试阶段 ViT 负载不均衡的问题,引入了窗口注意力机制,有效减少了 ViT 端的计算负担。 ViT 设置中,只有四层是全注意力层,其余层使用窗口注意力。最大窗口大小为 8x8,小于 8x8 的区域不需要填充,而是保持原始尺度,确保模型保持原生分辨率。

3)简化整体网络结构,使 ViT 架构与 LLMs 更加一致,采用了 RMSNorm 和 SwiGLU 结构。

直观对比qwen2-vl 和 qwen2.5vl 视频帧编码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20252.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DeepSeek R1原理

文章目录 DeepSeek R1原理强化学习介绍Policy ModelCritic ModelReward Model三者关系智能体包含的内容环境包含的内容 知识蒸馏简介数据蒸馏Logits 蒸馏特征蒸馏 训练流程DeepSeek-R1-Zero 训练策略与价值设计奖励方式训练模板**实验观察到模型自我进化**缺点 DeepSeek-R1 训练…

如何使用DeepSeek + PlantUML/Mermaid 生成专业图表

目录 一、工具简介 1.1 DeepSeek简介 1.2 PlantUML简介 1.3 Mermaid在线工具简介 二、在DeepSeek中生成Mermaid语法 2.1 编写提示词 2.2 示例输出 2.3 访问Mermaid在线编辑器 三、在DeepSeek中生成PlantUML语法 3.1 编写提示词 3.2 示例输出 3.3 访问PlantUML在线编…

开源多商户商城源码最新版_适配微信小程序+H5+APP+PC多端

在数字化时代,电子商务已经成为各行业不可或缺的一部分,开源多商户商城源码为中小企业和个人开发者提供了快速搭建和定制电商平台的利器。分享一款最新版的开源多商户商城源码,它能够适配微信小程序、H5、APP和PC等多个端口,满足商…

PHP基础部分

但凡是和输入、写入相关的一定要预防别人植入恶意代码! HTML部分 语句格式 <br> <hr> 分割符 <p>插入一行 按住shift 输入! 然后按回车可快速输入html代码(VsCode需要先安装live server插件) html:<h1>标题 数字越大越往后</h1> <p…

短视频矩阵碰一碰发视频源码技术开发,支持OEM

在短视频矩阵碰一碰发视频的技术开发中&#xff0c;前端设计是直接面向用户的关键部分&#xff0c;它不仅决定了用户体验的好坏&#xff0c;还对整个系统的可用性和吸引力起着重要作用。本文将深入探讨在这一技术开发中前端设计的要点、流程与关键技术。 一、前端设计的整体架构…

大模型 + cursor应用案例

cursor 介绍 cursor是一个集成了GPT4、Claude 3.5等先进LLM的类vscode的编译器&#xff0c;可以理解为在vscode中集成了AI辅助编程助手&#xff0c;从下图中的页面可以看出cursor的布局和vscode基本一致&#xff0c;并且cursor的使用操作也和vscode一致&#xff0c;包括extens…

深入浅出CSS复合选择器:掌控元素关系与层级选择

目录 前言 一、子代选择器&#xff08;Descendant Selector&#xff09; 1. 什么是子代选择器&#xff1f; 2. 基本语法 3. 示例 4. 注意事项 二、直接子元素选择器&#xff08;Child Selector&#xff09; 1. 什么是直接子元素选择器&#xff1f; 2. 基本语法 3. 示例…

CSRF 漏洞原理演示 基本绕过(同源 异源) 配合XSSToken值校验复用删除

前言 CSRF的基本原理 就是 举例 我们伪造一个支付宝的转账请求&#xff08;抓包获取的&#xff09;&#xff0c;受害者 &#xff1a; 正好登录着支付宝&#xff08;后台&#xff09;的 同时点击了我们伪造的&#xff08;包含恶意请求&#xff09;网址 从而导致先我们进行转…

外包干了3天,技术退步太明显了。。。

先说一下自己的情况&#xff0c;本科生生&#xff0c;21年通过校招进入武汉某软件公司&#xff0c;干了差不多3年的功能测试&#xff0c;感觉自己不能够在这样下去了&#xff0c;长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了3年的功能测试&#xff0c;已经让…

HomeAssistant 发现MQTT设备(温度,湿度,开关)

要通过 MQTT 将温度、湿度数据以及一个灯的开关状态传输到 Home Assistant 并实现设备自动发现&#xff0c;可以按照以下步骤操作&#xff1a; 1.前期准备工作 安装MQTT服务器(EMQX)配置好(可以在HA加载项中安装,也可以在NAS上Docker安装) HA的集成中安装MQTT,并且连接上(EM…

【stm32】DAC实验(stm32f4hal库)

一、DAC简介 1、DAC 数字到模拟转换器&#xff08;DAC&#xff09;是一种电子设备&#xff0c;用于将数字信号转换为模拟信号。它通常用于将数字数据转换为模拟信号&#xff0c;以便在模拟电路中进行处理。DAC在许多领域都有广泛的应用&#xff0c;如音频设备、通信系统、仪器…

云计算架构学习之Ansible-playbook实战、Ansible-流程控制、Ansible-字典循环-roles角色

一、Ansible-playbook实战 1.Ansible-playbook安装软件 bash #编写yml [rootansible ansible]# cat wget.yml - hosts: backup tasks: - name: Install wget yum: name: wget state: present #检查playbook的语法 [rootansible ansible]…

前端工程化的具体实现细节

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

Chapter 3 Differential Voltage Current amplifiers

Chapter 3 Differential Voltage & Current amplifiers 这一章介绍差分电压和电流放大器. Current mirrors 我们首先分析电流镜Current Mirror. 由一个diode-connected MOSCS放大MOS组成, diode-MOS将电流转换成电压, 再由CS MOS转换成电流. 考虑沟道调制效应, M1和M2的…

确保设备始终处于最佳运行状态,延长设备的使用寿命,保障系统的稳定运行的智慧地产开源了

智慧地产视觉监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒&#xff0c;省去繁琐重复的适配流程&#xff0c;实现芯片、算法、应用的全流程组合&#xff0c;从而大大减少企业级应用约95%的开发成本。通过计算机视觉和…

[笔记.AI]大模型的蒸馏、剪枝、量化 | 模型压缩 | 作用与意义

上周简单整理了《deepseek-r1的不同版本&#xff08;满血版、蒸馏版、量化&#xff09;》&#xff0c;这次继续完善对其的认知——补充“剪枝”&#xff0c;并进一步整理蒸馏、剪枝、量化的作用与意义。 以下摘自与DeepSeek-R1在线联网版的对话 蒸馏、剪枝、量化是当前主流的三…

Java 反射机制深度解析:类信息的来源、declared 的区别、赋值操作及暴力反射

在 Java 开发中&#xff0c;反射机制是一个强大且灵活的工具&#xff0c;它允许程序在运行时动态地获取类的信息、创建对象、调用方法和访问字段等。本文将结合代码示例和图示&#xff0c;深入探讨以下四个问题&#xff1a; 类信息来自哪里&#xff1f; 获取类信息时加不加 de…

Transformer 模型介绍(四)——编码器 Encoder 和解码器 Decoder

上篇中讲完了自注意力机制 Self-Attention 和多头注意力机制 Multi-Head Attention&#xff0c;这是 Transformer 核心组成部分之一&#xff0c;在此基础上&#xff0c;进一步展开讲一下编码器-解码器结构&#xff08;Encoder-Decoder Architecture&#xff09; Transformer 模…

电脑系统损坏,备份文件

一、工具准备 1.U盘&#xff1a;8G以上就够用&#xff0c;注意会格式化U盘&#xff0c;提前备份U盘内容 2.电脑&#xff1a;下载Windows系统并进行启动盘制作 二、Windows启动盘制作 1.微软官网下载启动盘制作工具微软官网下载启动盘制作工具https://www.microsoft.com/zh-c…

Linux下Ollama下载安装速度过慢的解决方法

问题描述&#xff1a;在Linux下使用默认安装指令安装Ollama&#xff0c;下载安装速度过慢&#xff0c;进度条进度缓慢&#xff0c;一直处于Downloading Linux amd64 bundle中&#xff0c;具体如下图所示&#xff1a; 其中&#xff0c;默认的Ollama Linux端安装指令如下&#xf…