CogVLM与CogAgent：开源视觉语言模型的新里程碑

CogVLM与CogAgent：开源视觉语言模型的新里程碑

news/2024/11/15 12:12:53/文章来源:https://blog.csdn.net/cenyk1230/article/details/135092485

引言

随着机器学习的快速发展，视觉语言模型（VLM）的研究取得了显著的进步。今天，我们很高兴介绍两款强大的开源视觉语言模型：CogVLM和CogAgent。这两款模型在图像理解和多轮对话等领域表现出色，为人工智能的发展开辟了新的道路。

CogVLM：强大的开源视觉语言模型

CogVLM是一个强大的开源视觉语言模型。CogVLM-17B拥有100亿的视觉参数和70亿的语言参数，支持490*490分辨率的图像理解和多轮对话。CogVLM-17B在10个经典的跨模态基准测试中取得了最佳性能，包括NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA和TDIUC，并在VQAv2, OKVQA, TextVQA, COCO字幕等方面排名第二，超越或匹敌PaLI-X 55B。CogVLM还可以和您聊关于图片的话题。

CogVLM的论文：https://arxiv.org/abs/2311.03079

CogAgent：基于CogVLM的视觉语言模型

CogAgent是基于CogVLM改进的开源视觉语言模型。CogAgent-18B拥有110亿的视觉参数和70亿的语言参数，支持1120*1120分辨率的图像理解。在CogVLM的能力之上，CogAgent进一步拥有了图形用户界面（GUI）Agent的能力。

CogAgent在9个经典的跨模态基准测试中实现了最先进的通用性能，包括VQAv2, OK-VQ, TextVQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, 和 POPE测试基准。它在如AITW和Mind2Web等GUI操作数据集上显著超越了现有的模型。除了CogVLM已有的所有功能（视觉多轮对话，视觉定位）之外，CogAgent支持更高分辨率的视觉输入和对话式问答，拥有视觉Agent的能力，并通过改进预训练和微调，提高了OCR相关任务的能力。

CogAgent的论文：https://arxiv.org/abs/2312.08914

如何开始使用CogVLM和CogAgent

1. 使用网页演示进行推理：您可以直接访问我们的CogVLM & CogAgent Web Demo进行体验。

2. 自行部署CogVLM / CogAgent：我们提供了详细的部署指南，包括命令行界面和网络演示的部署方式。您可以根据需要选择合适的方式。

3. 微调CogAgent / CogVLM：如果您想在自己的任务中使用CogVLM，我们提供了详细的微调指南，帮助您实现不同的输出风格或领域知识。

4. OpenAI格式：我们提供了与GPT-4V相同的API示例，您可以在openai_demo文件夹中查看。

详细用法请见GitHub页面。

硬件需求

模型推理需要至少1个RTX 3090(24G)显卡，CogAgent需要约12.6GB的显存，CogVLM需要约11GB的显存。如果使用FP16，则需要1个A100(80G)或2个RTX 3090(24G)显卡。微调则需要至少4个A100(80G)显卡，或者8个RTX 3090(24G)显卡。

结语

CogVLM和CogAgent的发布，为视觉语言模型的研究和应用开启了新的篇章。我们期待看到更多的研究者和开发者利用这两款模型，推动人工智能的发展。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/220648.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【算法日志】非排序数组的二分查找应用

【算法日志】非排序数组的二分查找应用

文章目录前言二分查找是一种比较简单且基础的查找算法，多用于排序数组的快速查找。但其实二分查找也有非排序数组的应用。引例 Leetcode162 寻找峰值本题是一道经典的二分查找算法题，要求找到一个比左右相邻值大的峰值。如果用暴力解法&#xff0…

阅读更多...

【网络安全】网络防护之旅 - Java安全机制探秘与数字证书引爆网络防线

【网络安全】网络防护之旅 - Java安全机制探秘与数字证书引爆网络防线

🌈个人主页：Sarapines Programmer🔥 系列专栏：《网络安全之道 | 数字征程》⏰墨香寄清辞：千里传信如电光，密码奥妙似仙方。挑战黑暗剑拔弩张，网络战场誓守长。目录 😈1. 初识网络安…

阅读更多...

JS的浅拷贝和深拷贝

JS的浅拷贝和深拷贝

首先理解什么是浅拷贝和深拷贝： 浅拷贝： 浅拷贝只会复制对象的第一层属性，而不会递归地复制嵌套的对象。浅拷贝仅复制对象的引用，新对象和原始对象仍然共享相同的引用，因此对新对象的修改可能会影响到原始对象。浅拷…

阅读更多...

自动化测试 (五) 读写64位操作系统的注册表

自动化测试 (五) 读写64位操作系统的注册表

自动化测试经常需要修改注册表很多系统的设置（比如：IE的设置）都是存在注册表中。桌面应用程序的设置也是存在注册表中。所以做自动化测试的时候，经常需要去修改注册表 Windows注册表简介注册表编辑器在 C:\Windows\regedit…

阅读更多...

WebSocket开发

WebSocket开发

目录前言 1.介绍 2.原理解析 3.简单的聊天室搭建 4.点到点消息传输总结前言 WebSocket 是互联网项目中画龙点睛的应用，可以用于消息推送、站内信、在线聊天等业务。 1.介绍 WebSocket 是一种基于 TCP 的新网络协议，它是一种持久化的协议&…

阅读更多...

Java精品项目源码新基于协同过滤算法的旅游推荐系统(编号V69)

Java精品项目源码新基于协同过滤算法的旅游推荐系统(编号V69)

Java精品项目源码新基于协同过滤算法的旅游推荐系统(编号V69) 大家好，小辰今天给大家介绍一个基于协同过滤算法的旅游推荐系统

阅读更多...

056：vue工具 --- CSS在线格式化

056：vue工具 --- CSS在线格式化

第056个查看专栏目录: VUE ------ element UI 专栏目标在vue和element UI联合技术栈的操控下，本专栏提供行之有效的源代码示例和信息点介绍，做到灵活运用。 （1）提供vue2的一些基本操作：安装、引用，模板使…

阅读更多...

Netty应用(七) ----MQTT编解码器

Netty应用(七) ----MQTT编解码器

目录 0.前言1. MqttEncoder--编码器1.1 构造方法1.2 encodeConnectMessage -- 连接消息1.3 encodeConnAckMessage - 确认连接1.4 encodePublishMessage -- 发布消息1.5 encodeSubscribeMessage - 订阅主题1.6 encodeUnsubscribeMessage - 取消订阅1.7 encodeSubAckMessage - 订…

阅读更多...

HarmonyOS应用开发实战—开箱即用的应用首页页面【ArkTS】【鸿蒙专栏-34】

HarmonyOS应用开发实战—开箱即用的应用首页页面【ArkTS】【鸿蒙专栏-34】

一.HarmonyOS应用开发实战—开箱即用的应用首页页面【ArkTS】【鸿蒙专栏-34】 1.1 项目背景 HarmonyOS（鸿蒙操作系统）是华为公司推出的一种分布式操作系统。它被设计为一种全场景、全连接的操作系统，旨在实现在各种设备之间的无缝协同和共享，包括智能手机、平板电脑、智能…

阅读更多...

计算机网络（四）

计算机网络（四）

九、网络安全 （一）什么是网络安全？ A、网络安全状况分布式反射攻击逐渐成为拒绝攻击的重要形式涉及重要行业和政府部门的高危漏洞事件增多。基础应用和通用软硬件漏洞风险凸显（“心脏出血”，“破壳”等&#x…

阅读更多...

出国旅游需要注意些什么

出国旅游需要注意些什么

出国旅游是一种令人兴奋、令人期待的经历。然而，在进行这种经历之前，有几件事情是需要注意的。本文将为您介绍出国旅游需要注意的一些重要事项。首先，为了确保您的出国旅行顺利进行，您应该提前办理好您的签证和护照。不同国家对于…

阅读更多...

【神器】wakatime代码时间追踪工具

【神器】wakatime代码时间追踪工具

文章目录 wakatime简介支持的IDE安装步骤API文档插件费用写在最后 wakatime简介 wakatime就是一个IDE插件，一个代码时间追踪工具。可自动获取码编码时长和度量指标，以产生很多的coding图形报表。这些指标图形可以为开发者统计coding信息，比如…

阅读更多...

头部首发优志愿头部u_sign生成与TLS指纹处理！ + 数据可视化技术讲解【Python爬虫】

头部首发优志愿头部u_sign生成与TLS指纹处理！ + 数据可视化技术讲解【Python爬虫】

目录针对大学名称大学排名, 综合指数,学校情况等数据进行爬取找对应得数据包请求发现数据有加密发现加密参数搜索加密参数，好进行分析分析过程数据可视化针对大学名称大学排名, 综合指数,学校情况等数据进行爬取首先进行鼠标右键，进行…

阅读更多...

Spring Boot+Mybatis设置sql日志打印

Spring Boot+Mybatis设置sql日志打印

在全局配置文件添加以下内容：logging.level.com.demo.mapperdebug，com.demo.mapper：src下的mapper路径，debug：设置日志打印级别为debug，亦可设置为：ERROR、WARN、INFO application.properties …

阅读更多...

TikTok获客技巧分享(纯干货)

TikTok获客技巧分享(纯干货)

随着全球短视频的兴起，TikTok已经成为了最受欢迎的社交媒体平台之一，对于企业和个人而言，如何在TikTok上获取更多的客户和粉丝，成为了他们关注的焦点，本文将分享一些TikTok获客技巧，帮助大家在短视频平台上…

阅读更多...

初识Redis缓存，一文掌握Redis重要知识文集。

初识Redis缓存，一文掌握Redis重要知识文集。

🏆作者简介，普修罗双战士，一直追求不断学习和成长，在技术的道路上持续探索和实践。 🏆多年互联网行业从业经验，历任核心研发工程师，项目技术负责人。 🎉欢迎 👍点赞✍评论…

阅读更多...

云原生基础入门概念

云原生基础入门概念

文章目录发现宝藏云原生的概念云原生的关键技术为何选择云原生？云原生的实际应用好书推荐发现宝藏前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。【宝藏入口】。云原生的概念当谈及现…

阅读更多...

[23] GaussianAvatars: Photorealistic Head Avatars with Rigged 3D Gaussians

[23] GaussianAvatars: Photorealistic Head Avatars with Rigged 3D Gaussians

[paper | proj] 给定FLAME，基于每个三角面片中心初始化一个3D Gaussian（3DGS）；当FLAME mesh被驱动时，3DGS根据它的父亲三角面片，做平移、旋转和缩放变化；3DGS可以视作mesh上的辐射场&#xff1…

阅读更多...

智能优化算法应用：基于算术优化算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用：基于算术优化算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用：基于算术优化算法3D无线传感器网络(WSN)覆盖优化 - 附代码文章目录智能优化算法应用：基于算术优化算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.算术优化算法4.实验参数设定5.算法结果6.…

阅读更多...

SD-WAN网络的可扩展性解析

SD-WAN网络的可扩展性解析

SD-WAN组网以其卓越的可扩展性而脱颖而出，为企业提供了一个灵活适应不断扩张和增长需求的网络解决方案。SD-WAN组网通过轻松实现规模调整、拓扑变更以及多种接入方式的切换，确保网络的高效性和可管理性。对于正处于快速发展时期的企业而言，SD…

阅读更多...

最新文章

推荐文章