国内真正意义上的OpenAI，最强多模态大模型 MiniCPM-V 2.6 发布

国内真正意义上的OpenAI，最强多模态大模型 MiniCPM-V 2.6 发布

news/2024/11/24 16:40:22/文章来源:https://blog.csdn.net/m0_59596990/article/details/141100837

最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。

最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。

《AIGC 面试宝典》圈粉无数！
《大模型面试宝典》(2024版) 发布！

喜欢本文记得收藏、关注、点赞。更多实战和面试交流，欢迎交流

大家好，今天继续分享几个开源项目！

一、MiniCPM-V 2.6

8 月 6 日，MiniCPM-V 开源项目重磅更新了「小钢炮」 MiniCPM-V 2.6。

仅 8B 参数，单图、多图、视频理解全面超越GPT-4V，稳坐端侧最强多模态铁王座。

8B 参数的模型很有意义，这种小模型可以在手机端侧落地。

MiniCPM-V 2.6 的能力，让外国网友们眼前一亮，火出圈了！

1、在线测试

我找来了一张火车票测试一下：

输入一张图片，外加问题：请逐步详细分析，谁（姓名）几点出发，从哪儿到哪儿，并且花了多少钱？

回答完全正确。我又找了稍微模糊一点的图片又测试了下：

然后又提问：两张车票，加起来多少钱？

54.5元 + 295.0元 = 349.5元，这种上下文多次输入的，也能算对。

我又测试了它对于梗图的解读：

MiniCPM-V 2.6 的回答，这波你打几分？

再张抽象一点的：

MiniCPM-V 2.6 的回答：

2、官方 Demo

MiniCPM-V 2.6 刷新了端侧多模态复杂推理能力。

比如这道 GPT-4V 官方演示经典命题：调整自行车车座。这个对人很简单的问题对模型却非常困难，它非常考验多模态模型的复杂推理能力和对物理常识的掌握能力。

仅 8B 的 MiniCPM-V 2.6 展现出顺利完成这项挑战的潜力，通过和模型进行多图多轮对话，它清晰地告知完成调低自行车车座的每一个详细步骤，还能根据说明书和工具箱帮你找到合适的工具。

甚至还能根据截图的报错信息，帮你改 bug：

根据表格的截图信息，做数据分析、统计：

3、MiniCPM-V 2.6 细节

MiniCPM-V 2.6 是基于 SigLip-400M 和 Qwen2-7B 构建，共 8B 参数。

支持图片和视频的理解，官方提供的在线 demo 也提供了接口，不仅能处理图文、还是处理视频。

MiniCPM-V 2.6 在最新版本 OpenCompass 榜单上（综合 8 个主流多模态评测基准）平均得分 65.2，以 8B 量级的大小在单图理解方面超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等主流商用闭源多模态大模型。

端侧非常友好，量化后端侧内存仅占 6 GB；端侧推理速度高达 18 tokens/s，相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理；且支持多种语言。

对于多模态大模型感兴趣的小伙伴，一定要尝试一下。

项目地址：

https://github.com/OpenBMB/MiniCPM-V

在线体验地址（需梯子）：

https://huggingface.co/spaces/openbmb/MiniCPM-V-2_6

模型保存地址（需梯子）：

https://huggingface.co/openbmb/MiniCPM-V-2_6

二、SimpleTuner

fintune 虽然不需要从头训练大模型，但也有着不小的工作量。

SimpleTuner，顾名思义，简单地微调，它是一个针对 Stable Diffusion 2.1、Stable Diffusion 3、DeepFloyd 和 SDXL 的微调训练项目。

能够帮助开发者快速微调这些模型，支持全部 finetune，也支持 LoRA 训练。

支持 N 卡，A 卡，苹果 M3 CPU 上的训练，N 卡 3090 以上的就行，AMD 相对于 N 卡会占用更多的内存，M3 芯片上训练 LoRA 需要 128G 以上的内存。

官方提供了详细的训练指南：

有微调大模型需求的小伙伴，可以关注。

项目地址：

https://github.com/bghira/SimpleTuner

好了，本期的内容就是这么多.

技术交流

在这里插入图片描述

用通俗易懂的方式讲解系列

重磅来袭！《大模型面试宝典》(2024版) 发布！
重磅来袭！《大模型实战宝典》(2024版) 发布！
用通俗易懂的方式讲解：不用再找了，这是大模型最全的面试题库
用通俗易懂的方式讲解：这是我见过的最适合大模型小白的 PyTorch 中文课程
用通俗易懂的方式讲解：一文讲透最热的大模型开发框架 LangChain
用通俗易懂的方式讲解：基于 LangChain + ChatGLM搭建知识本地库
用通俗易懂的方式讲解：基于大模型的知识问答系统全面总结
用通俗易懂的方式讲解：ChatGLM3 基础模型多轮对话微调
用通俗易懂的方式讲解：最火的大模型训练框架 DeepSpeed 详解来了
用通俗易懂的方式讲解：这应该是最全的大模型训练与微调关键技术梳理
用通俗易懂的方式讲解：Stable Diffusion 微调及推理优化实践指南
用通俗易懂的方式讲解：大模型训练过程概述
用通俗易懂的方式讲解：专补大模型短板的RAG
用通俗易懂的方式讲解：大模型LLM Agent在 Text2SQL 应用上的实践
用通俗易懂的方式讲解：大模型 LLM RAG在 Text2SQL 上的应用实践
用通俗易懂的方式讲解：大模型微调方法总结
用通俗易懂的方式讲解：涨知识了，这篇大模型 LangChain 框架与使用示例太棒了
用通俗易懂的方式讲解：掌握大模型这些优化技术，优雅地进行大模型的训练和推理！
用通俗易懂的方式讲解：九大最热门的开源大模型 Agent 框架来了

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/396740.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

二叉树的最大深度

二叉树的最大深度

二叉树的最大深度思路： 法一：深搜也就是递归要想清楚边界条件好久没写深搜了回忆下怎么写。突然就悟了： /*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *rig…

阅读更多...

2024年6月青少年机器人技术等级考试理论综合试卷（二级）

2024年6月青少年机器人技术等级考试理论综合试卷（二级）

202406 青少年等级考试机器人理论真题二级第 1 题如图，这是飞机起飞时的机翼示意图，下列说法正确的是？（ ） A：机翼上侧所受的气压为0 B：机翼受到向下的力的作用 C：机翼下侧所受…

阅读更多...

基于sklearn的机器学习 — 支持向量机（SVM）

基于sklearn的机器学习 — 支持向量机（SVM）

支持向量机（SVM：support vector machine）另一种功能强大、应用广泛的学习算法，可应用于分类、回归、密度估计、聚类等问题。SVM可以看作是感知器（可被视为一种最简单形式的前馈神经网络，是一种二元线性分类…

阅读更多...

C++ 特殊类设计

C++ 特殊类设计

目录 0.前言 1.设计一个不能被拷贝的类 1.1C98实现 1.2C11实现 2.设计一个只能在堆上创建对象的类 3.设计一个只能在栈上创建对象的类 4.设计一个不能被继承的类 4.1C98实现 4.2C11实现 5.设计只能创建一个对象的类（单例模式） 5.1设计模式简介 5.2单例模…

阅读更多...

Jupyter nbextensions安装与使用

Jupyter nbextensions安装与使用

这里写自定义目录标题 Jupyter nbextensions安装与使用安装7以下版本，安装插件包推荐使用的插件 Jupyter nbextensions安装与使用目前，jupyter版本升级到了7以上版本，导致其界面非常难看，因此，为了重回之前的使用界面…

阅读更多...

buuctf-crypto

buuctf-crypto

前言查找资料的时候,意外翻出之前刷的一些ctf题目,算是简单记录一下,当然因为常用typeo去写md文件,所以其中有很多当时记录的图片都失效了,可惜了题目1:一眼就解密 ZmxhZ3tUSEVfRkxBR19PRl9USElTX1NUUklOR30 base64解密 flag:flag{THE_FLAG_OF_THIS_STRING} 题目2:MD5 …

阅读更多...

全球化浪潮下的数据库革新：嘉里物流 TiDB 实践价值的设想

全球化浪潮下的数据库革新：嘉里物流 TiDB 实践价值的设想

导读本文来自 TiDB 社区武汉站——嘉里物流架构团队负责人肖飞老师的演讲《嘉里物流 & TiDB 在全球化业务场景中应用设想》。本次分享探讨了嘉里物流在全球化扩展中，将如何通过 TiDB 的强大功能应对海量数据挑战，优化技术架构，并提升决…

阅读更多...

【Linux】详解自定义Shell管道 | 构建简易进程池

【Linux】详解自定义Shell管道 | 构建简易进程池

目录续：通信 4 种情况应用场景 1. 自定义 shell 管道 1. 包含头文件 2. 解析命令函数详细步骤 3. 执行命令函数 4. 主函数总结 2. 使用管道实现一个简易版本的进程池代码结构代码实现 channel.hpp tasks.hpp main.cc 子进程读取任务&#xff…

阅读更多...

十九、虚拟机VMware Workstation(CentOSDebian)的安装

十九、虚拟机VMware Workstation(CentOSDebian)的安装

目录 🌻🌻 一、安装 VMware Workstation1.1 安装 VMware Workstation1.2 虚拟机上安装 CentOS1.3 虚拟机安装 Debian 二、配置Debian方便第三方工具远程连接2.1 配置debian2.2 安装远程SSH工具并连接一、安装 VMware Workstation 官网下载本地资源库…

阅读更多...

你好! Git——企业级开发模型

你好! Git——企业级开发模型

企业级开发模型（6） 一、删除远程分支，git branch -a （查看所有本地分支与远程分支）还能看到已经删除的分支，怎么解决？二、企业级开发流程2.1 企业级开发流程2.2 系统开发环境三、Git分支设计模…

阅读更多...

RabbitMQ面试题汇总

RabbitMQ面试题汇总

RabbitMQ面试题一、RabbitMQ基础1. 什么是RabbitMQ，它的基本架构是怎样的？2. RabbitMQ支持哪些协议？3. 说一下AMQP协议？4. 为什么要使用RabbitMQ？5. MQ的应用场景有哪些？6. 解耦、异步、削峰是什么&#x…

阅读更多...

购物系统小程序的设计

购物系统小程序的设计

管理员账户功能包括：系统首页，个人中心，商品分类管理，商品信息管理，特价商品管理，用户管理，留言板管理，订单管理，系统管理微信端账号功能包括：系统首页&…

阅读更多...

uni-app总结

uni-app总结

1. <u-form-item label"报废人" ><u--input v-model"model.remark" border"bottom" placeholder"请输入"></u--input> </u-form-item> border"bottom" 报废日期为了

阅读更多...

后端Web开发之Maven

后端Web开发之Maven

1.java项目构建工具maven介绍 Maven是apache旗下的一个开源项目。Apache软件基金会，成立于1999年7月，是目前世界上最大的最受欢迎的开源（源代码开放）软件基金会也是一一个专门为支持开源项目而生的非盈利性组织。 apache开源项目…

阅读更多...

PDO在CANopen协议同步传输和异步传输

PDO在CANopen协议同步传输和异步传输

PDO（过程数据对象）在CANopen协议中有两种主要的传输方式：同步传输和异步传输。这两种方式决定了PDO数据的传输时机和条件。下面分别举例说明这两种传输方式： 1. 同步传输 (Synchronous Transmission) 概念： 在同步传输…

阅读更多...

3GPP 4G 5G 主要协议

3GPP 4G 5G 主要协议

4G LTE的协议主要是36 series 5G NR的协议主要是38 series

阅读更多...

RustScan：开源端口扫描器

RustScan：开源端口扫描器

RustScan 是一款开源端口扫描器，专为速度和多功能性而设计。它结合了时尚的界面和随时间推移而适应和改进的能力。借助 RustScan 的自适应学习功能，该工具不断优化其性能，使其成为最高效的端口扫描器。在几秒钟内发现开放端口&#xff…

阅读更多...

解决端口号被占用问题

解决端口号被占用问题

第一种： 最简单有效的方法，重启一下电脑，占用此端口的程序就会释放端口。第二种： 使用命令找到占用端口的程序，把它关闭。 1、打开运行窗口输入：CMD ，进入命令窗口。 2、输入：n…

阅读更多...

Candance Allegro 入门教程笔记：如何绘制原理图和原理图库？

Candance Allegro 入门教程笔记：如何绘制原理图和原理图库？

文章目录一、用 Capture CIS 17.4 绘制原理图库 Cadence Allegro QQ交流学习裙：173416628 1、凡亿教育的Candance Allegro 17.4基础教程 2、小哥Cadence Allegro 132讲技巧视频 3、小哥Cadence Allegro 两层板基础视频 4、小哥Cadence Allegro 四层板提高视频…

阅读更多...

23.10 Django 事务的使用

23.10 Django 事务的使用

1. 事务事务(Transaction): 是一种将多个数据库操作组合成一个单一工作单元的机制. 如果事务中的所有操作都成功完成, 则这些更改将永久保存到数据库中. 如果事务中的某个操作失败, 则整个事务将回滚到事务开始前的状态, 所有的更改都不会被保存到数据库中. 这对于保持数据的…

阅读更多...

最新文章

推荐文章