Mistral AI再创新高,Pixtral 12B多模态模型强势来袭

前沿科技速递🚀

近日,Mistral AI 发布了其首款多模态大模型——Pixtral 12B。作为一款具有语言与视觉处理能力的模型,Pixtral 12B 支持高达1024×1024像素的图像,具备强大的文本生成、图像理解与生成能力,能够处理复杂的文本与图像任务,在OCR、图像分类、问答系统等场景表现出色。

来源:传神社区

01 Mistral AI推出Pixtral 12B

Mistral AI是一家专门从事人工智能(AI)产品的法国公司。该公司由Meta Platforms和Google DeepMind的前员工于2023年4月成立,并迅速在人工智能领域确立了自己的地位。该公司专注于生产大型开源语言模型,强调了自由和开源软件的创始重要性,并将自己定位为专有模型的替代品。

最近,Mistral AI刚刚推出了其第一个名为Pixtral 12B的多模态模型,与OpenAI和Anthropic等公司竞争。这个120亿参数模型能够同时处理图像和文本,目前使用其Nemo 12B文本模型。该模型的大小为24 GB,理论上应该能够执行任务,如为图像添加字幕和计算照片上的对象数量。

图片

02 Pixtral 12B的技术亮点

先进的神经网络架构

Pixtral 12B 是基于先进的 Transformer 架构设计的,具备 40 层神经网络、14,336 个隐藏维度以及 32 个注意力头。该设计赋予它强大的计算能力,尤其擅长处理多模态数据,在大规模图像处理和语言生成任务中表现尤为突出。

专业的视觉编码器

Pixtral 12B 配备了一个专门用于图像处理的视觉编码器,能够处理分辨率高达 1024×1024 像素的图像,并包含 24 层隐藏层。这种架构不仅使其能够高效处理复杂的图像任务,还与语言处理模块无缝衔接,使其在 OCR(光学字符识别)、图像分类和图表解析等任务中表现优异。

强大的多模态融合

Pixtral 12B 的多模态能力源自其对文本、图像和 URL 数据的整合处理。通过统一建模,它能够在语言与视觉任务间实现深度融合,擅长复杂的问答系统、图像理解、多图像比较及视频分析等任务,展现出卓越的性能。

出色的语言与图像处理能力

该模型支持长达 131072 个 tokens 的上下文长度,使其在处理长文本和复杂对话时游刃有余。此外,其视觉模块可以处理高分辨率图像,尤其在多帧图像比较和视频总结任务中表现强劲。

技术创新与优化

Pixtral 12B 采用了 GeLU(高斯误差线性单元)激活函数和 2D ROPE(旋转位置嵌入)技术,用以提升视觉编码器的性能。这些技术不仅增强了模型的推理能力,还显著提高了其在高分辨率图像处理中的精度和速度,确保了其在视觉任务中的领先地位。

精细优化与多语言支持

Pixtral 12B 的语言处理模块经过精细调优,特别在语言生成和问答任务中表现出色。通过引入高质量的多语言数据集,模型支持多语言处理,适用于多种语言环境下的任务执行,具备广泛的全球应用前景。

图片

03 模型表现如何?数据告诉你!

根据公开的基准测试结果,Pixtral 12B 在多模态任务中表现突出。相比 Qwen2-VL-7B、LLaVA-OV-7B 和 Phi-3 Vision 等同类模型,Pixtral 12B 在多模态推理、问答系统、图像理解等任务上均表现优异,尤其是在图像生成和高级图像处理任务上处于领先地位。这不仅展示了该模型在视觉处理中的强大效能,也证明了其在语言和图像任务融合方面的领先技术。

图片

Pixtral 也具备非常出色的解释和推理能力。具体指标上,Pixtral 12B 在 MMMU 和 MathVista 上的多模态知识和推理性能均领先其它参与对比的模型(主要是开放模型,并没有 GPT-4o 和 Claude-3.5 Sonnet)。多模态问答性能也表现卓越,处于领先位置。

图片

多模态指令遵从以及文本理解能力都表现不错,在某些指标上仅略逊于 Claude-2 Haiku。

图片

04 应用实例

多模态问答与内容生成

Pixtral 12B 的多模态能力使得其在问答系统、内容生成和用户交互方面有广泛的应用前景。通过结合图像和文本输入,模型可以自动生成复杂的报告、分析文档,甚至可以根据输入的图像生成详细的描述或故事情节。这种能力在电商、医疗、教育等领域将发挥巨大作用。

图片

图像理解与视频分析

借助其强大的视觉处理能力,Pixtral 12B 可以广泛应用于图像识别、视频分析等领域。例如,在安全监控中,该模型可以处理高分辨率视频,并从中提取关键图像信息;在智能文档处理系统中,Pixtral 12B 可以通过 OCR 技术解析扫描文档并生成对应的文本内容。

图片

OCR

在医疗和教育领域,它的OCR和复杂文档解析功能将大大提高处理效率,生成精确的诊断报告或学习材料。即使是面对繁杂的手写草稿或者公式复杂的科学文档,Pixtral 12B 也能快速、准确地完成内容识别和转换。

图片

图片

04 模型下载

传神社区:

https://opencsg.com/models/mistral-community/pixtral-12b-240910

huggingface:

https://huggingface.co/mistral-community/pixtral-12b-240910

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/425080.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Dubbo从入门到实战

Dubbo从入门到实战 1、为什么需要dubbo 很多时候,其实我们使用这个技术的时候,可能都是因为项目需要,所以,我们就用了,但是,至于为什么我们需 要用到这个技术,可能自身并不是很了解的&#x…

【C++STL简介】——我与C++的不解之缘(八)

前言 学过了C的模版,接下来学习C中的STL(标准模版库),先来了解一下STL是啥 一、什么是STL STL(standard template libaray 标准模版库):是C标准库的重要组成部分,不仅是一个可复用的…

Zookeeper工作机制、特点、数据结构、应用场景、配置参数解读

ZK工作机制 从涉及模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,zk就负责通知已在zk上注册的那些观察者做出相应…

【FATFS】FATFS简介及下载

1、FATFS简介 FatFs 是一个针对嵌入式系统开发的通用文件系统模块,主要用于支持 FAT 文件系统。它最初由 ChaN 开发,并被广泛应用于嵌入式设备上。FatFs 以其轻量级、可配置和设备无关的特性著称,支持 FAT12、FAT16、FAT32 以及 exFAT 文件系…

Linux:进程状态和优先级

一、进程状态 1.1 操作系统学科(运行、阻塞、挂起) 为了弄明白正在运行的进程是什么意思,我们需要知道进程的不同状态 大多数操作系统都遵循以下原则 1.1.1 运行状态 因为有一个调度器需要确保CPU的资源被合理使用,所以需要维护…

【AI大模型】ChatGPT模型原理介绍(下)

目录 🍔 GPT-3介绍 1.1 GPT-3模型架构 1.2 GPT-3训练核心思想 1.3 GPT-3数据集 1.4 GPT-3模型的特点 1.5 GPT-3模型总结 🍔 ChatGPT介绍 2.1 ChatGPT原理 2.2 什么是强化学习 2.3 ChatGPT强化学习步骤 2.4 监督调优模型 2.5 训练奖励模型 2.…

【H2O2|全栈】关于CSS(1)CSS基础(一)

目录 CSS基础知识 前言 准备工作 啥是CSS? 如何引用CSS? 选择器 通配符选择器 类名(class)选择器 id选择器 CSS解析顺序(优先级) 常见CSS标签(一) 字体属性 font-style…

SQL Server开启网络访问

目前工作中很少用到SQL Server了,最近需要测试几个表,需要搭建一个SQL Server数据库服务,这里做个总结吧。 安装这里就不做详细介绍了,本文只介绍如何开启SQL Server网络访问。 1、云服务器安全组设置 如果是搭建在云服务器上&a…

[数据集][目标检测]智慧交通铁路异物入侵检测数据集VOC+YOLO格式802张7类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):802 标注数量(xml文件个数):802 标注数量(txt文件个数):802 标注类别…

虚幻引擎 | (类恐鬼症)玩家和NPC语音聊天(下)

上下文Conversation Array 要让GPT记住上下文,实现GPT4里的连续对话功能,需要把以下内容存入conversation array中去。 NPC background storyuser input promptNPC anwser open AI API的JsonObject JSONObject是一种数据结构,可以理解为JSO…

模仿抖音用户ID加密ID的算法MB4E,提高自己平台ID安全性

先看抖音的格式 对ID加密的格式 MB4EENgLILJPeQKhJht-rjcc6y0ECMk_RGTceg6JBAA 需求是 同一个ID 比如 413884936367560 每次获取得到的加密ID都是不同的,最终解密的ID都是413884936367560 注意这是一个加密后可解密原文的方式,不是单向加密 那么如下进行…

7-15 QQ帐户的申请与登陆(map)

输入样例: 5 L 1234567890 myQQqq.com N 1234567890 myQQqq.com N 1234567890 myQQqq.com L 1234567890 myQQqq L 1234567890 myQQqq.com输出样例: ERROR: Not Exist New: OK ERROR: Exist ERROR: Wrong PW Login: OK 代码&#xff1a; #include<iostream> #include&l…

[全网首发]怎么让国行版iPhone使用苹果Apple Intelligence

全文共分为两个部分&#xff1a;第一让苹果手机接入AI&#xff0c;第二是让苹果手机接入ChatGPT 4o功能。 一、国行版iPhone开通 Apple Intelligence教程 打破限制&#xff1a;让国行版苹果手机也能接入AI 此次发布会上&#xff0c;虽然国行 iPhone16 系列不支持 GPT-4o&…

连接数据库(以MySQL为例)

文章目录 前言一、数据库是什么&#xff1f;二、连接步骤 1.手动导入驱动包2.连接数据库总结 前言 面对应用程序的开发&#xff0c;普遍需要保存用户的海量数据。保存粮的库叫粮库&#xff0c;保存水的库叫水库&#xff0c;那么保存数据的库自然叫数据库。有了数据库&#xff0…

Qt自定义按键实现长,短按

本文介绍Qt自定义按键实现长&#xff0c;短按。 Qt触摸屏应用有时会涉及到触摸屏按钮长&#xff0c;短按操作&#xff0c;如长按实现关机操作&#xff0c;本文基于普通QPushButton为基类&#xff0c;自定义按键实现长&#xff0c;短按操作。 1.定义新类 这里以QPushButton为…

(c++)函数的分文件编写

1、在头文件文件夹中创建.h的头文件(如&#xff1a;_func.h)&#xff0c;用于存放函数的声明。注意头文件里面也要声明#include<iostream> using namespace std;因为等会你编写的函数要用这两个东西 2、在源文件里面创建一个.cpp文件来写函数的定义&#xff0c;也就是函…

炫酷HTML蜘蛛侠登录页面

全篇使用HTML、CSS、JavaScript&#xff0c;建议有过基础的进行阅读。 一、预览图 二、HTML代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-w…

Linux下的简单TCP客户端和服务器

客户端 #include <arpa/inet.h> #include <stdlib.h> #include <stdio.h> #include <string.h> #include <unistd.h> #include <sys/socket.h>int main() {struct sockaddr_in* caddr(struct sockaddr_in*)malloc(sizeof(struct sockaddr…

HTML5超酷炫的水果蔬菜在线商城网站源码系列模板1

文章目录 1.设计来源1.1 主界面1.2 商品列表界面1.3 商品详情界面1.4 其他界面 2.效果和源码2.1 动态效果2.2 源代码 源码下载 作者&#xff1a;xcLeigh 文章地址&#xff1a;https://blog.csdn.net/weixin_43151418/article/details/142059238 HTML5超酷炫的水果蔬菜在线商城网…

鸿蒙开发之ArkTS 基础六 对象

什么是对象的呢&#xff1f;就是描述物体的特征和行为&#xff0c;是可以存储多种数据的容器 对象的定义和使用 let 对象名称: 对象结构类型 值 通过interface 关键字来约定对象结构类型,语法结构如下&#xff1a; interface 对象名{ 属性1&#xff1a;类型 属性2&#…