论文笔记--Gemini: A Family of Highly Capable Multimodal Models

论文笔记--

  • 1. 文章简介
  • 2. 文章概括
  • 3 文章重点技术
    • 3.1 模型架构
    • 3.2 训练数据
    • 3.3 模型评估
      • 3.3.1 文本
        • 3.3.1.1 Science
        • 3.3.1.2 Model sizes
        • 3.3.1.3 Multilingual
        • 3.3.1.4 Long Context
        • 3.3.1.5 Human preference
      • 3.3.2 多模态
        • 3.3.2.1 图像理解
        • 3.3.2.2 视频理解
        • 3.3.2.3 图像生成
        • 3.3.2.4 音频理解
    • 3.4 部署
  • 4. 文章亮点
  • 5. 原文传送门

1. 文章简介

  • 标题:Gemini: A Family of Highly Capable Multimodal Models
  • 作者:Gemini Team, Google
  • 日期:2023

2. 文章概括

  近日google发行的Gemini系列多模模型引发了业内的争相转发,该系列模型包含Ultra, Pro和Nano三种尺寸,分别适用于不同的预算和预期。该多模态模型在文本、图片、音频、视频等多个领域表现突出,特别地,Gemini Ultra是第一个在MMLU测评集上性能达成人类专家水平的模型。

3 文章重点技术

3.1 模型架构

  Gemini模型基于Transformer解码器架构,支撑32K的上下文长度。Gemini家族包含Ultra/Pro/Nano三种尺寸的模型,其中Ultra表现最好,且在多个任务上达到了SOTA;Pro模型在多个任务上表现也很好,可在成本有限的情况下作为Ultra的替代品;Nano-1(1.8B)和Nano-2(3.25B)可支撑不同内存的on-device部署。具体如下表所示
gemini family
  Gemini系列模型支持文本、图像和音视频交错的输入,支持输出文本和图像。如下图所示。其中图像部分的编码类似Google之前的Flamingo,CoCa和PaLI模型;Video的编码是通过将Video处理为祯的序列,然后采样序列进行编码得到输出。
gemini架构

3.2 训练数据

  Gemini的训练数据来源包含网页、书籍、代码,数据类型包含图像、音频、视频等。文章首先利用启发式规则和基于模型的分类起对所有的数据集进行质量过滤,再通过安全过滤移除有害内容。文章通过在小尺寸模型上的数值实验得到最终的数据配比,再用相同的数据配比去训练大的模型。

3.3 模型评估

  Gemini是一种多模态模型,故文章从文本 、图像、视频几个方面对模型进行了性能评估。

3.3.1 文本

  文章对比了Gemini Pro/Ultra和一系列现存的表现较好的LLMs,评估结果见下表。可以看到,Gemini Pro的表现超过了GPT-3.5等大部分模型,Gemini Ultra的表现超过了所有的模型。
text-performance

3.3.1.1 Science

  特别地,在MMLU上,Gemini Ultra达到了90.04%的accuracy,成为第一个在该数据集上超过人类专家的表现(89.8%)的模型,且acc领先SOTA(86.4%)3%+。文章在处理MMLU的数据时采用了chain-of-thought(COT) prompt方法,文章发现,采用COT+greedy补充的方法可以有效提升模型表现。具体来说,文章会对测试数据生成 k k k个COT的样本,如果 k k k个样本的一致性达到给定的阈值(此时认为满足COT的自我一致性),则选择COT的结果作为最终生成回答,否则直接采用贪婪采样。

3.3.1.2 Model sizes

  文章对比了Gemini家族在不同benchmarks上的不同维度的能力。具体来说,文章将评测集分成了6中能力维度:Factuality, Long-Context, Math/Science, Reasoning,Multilingual和Summarization,发现在所有维度上模型表现随着模型尺寸的增加而增加,且Nano模型尽管尺寸很小,在Factuality和Multilinguality上表现也足够强大。具体见下图
6capabilities

3.3.1.3 Multilingual

  Gemini模型同样表现出了强大的多语言处理能力。在机器翻译的benchmarks上,Gemini Ultra模型在所有out-of-English任务(从英文翻译为其它语言)上超过SOTA,在Into-English任务上也几乎持平SOTA,见下表。此外,Gemini在一些更具挑战性的任务(如MGSM)上表现也超过了现存最好的模型。实验证明,Gemini具有多语言、多模态处理问题的能力。
Machine Translation

3.3.1.4 Long Context

  针对长文本,文章做了如下的综合回溯测试:首先在context开始位置增加一些key-value键值对,然后增加填充文本,然后在整个上下文中query固定的key,实验发现,Ultra模型可以以98%的acc查询给定的key对应的value。此外,文章测试了NLL VS Token index的实验,结果如下图所示,可以看到随着token index增加到32K,NLL逐渐降低,说明模型具备处理长的上下文的能力。
NLL VS token index

3.3.1.5 Human preference

  文章进行了side-by-side blind evaluations来测试相同prompt下人类对两个模型产生回答的偏好。为此,文章首先对Gemini进行了指令微调,得到Instruction-tuned Gemini Pro(ItGP)模型。接下来对该模型和PaLM2 模型在指令遵循、创意写作、多模态理解、长文本理解、安全性等方面进行了比较。实验表明基于ItGP的模型对人类更加有帮助且更安全:
human preference

3.3.2 多模态

3.3.2.1 图像理解

  文章从4个不同能力维度的8个测试集测试了模型的图像理解能力。结果如下表所示,可以看到,Gemini Ultra在全部zero-shot任务重表现最好,特别针对和OCR相关的图像理解任务,Gemini Ultra 的zero-shot表现甚至超过了以前的一些Fine-tuned的SOTA结果。
图像理解
  下图为一个Gemini处理多模态reasoning的示例,可以看到模型具备识别、图像转换、指令遵循和抽象推理等多种多模态推理能力
image reasoning

3.3.2.2 视频理解

  Gemini同样在多个video理解任务重达到了SOTA水平,表现了Gemini强大的时序推理能力
video understanding

3.3.2.3 图像生成

  Gemini支持图像、文本输出,从而模型可以在few-shot设置下生成图文交错输出,可用于设计博客、网站等。下图为一个Gemini的图像理解和生成的示例,该示例也出现在最近大火的Gemini推广视频中。
image generation

3.3.2.4 音频理解

  文章进一步测试了Gemini系列模型在ASR(语音识别)、AST(语言翻译)的benchmarks上的表现。结果表明,Gemini Pro模型在所有AST和ASR的任务中显著优于USM、Whisper模型:
audio understanding

3.4 部署

  部署模型前,google做了一系列工作保证模型的性能和安全性,包括数据过滤,迭代式的指令微调和评估等。

4. 文章亮点

  文章提出并发布了Gemini模型,是现存最强大的多模态模型,在多个文本、图像、视频、音频的benchmarks上均达到了SOTA。Gemini模型预计12/13发布集成方案,届时我们可以基于Gemini来进行进一步的研究。

5. 原文传送门

Gemini: A Family of Highly Capable Multimodal Models
google gemini官网地址
gemini post 地址

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/213218.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux下通过find找文件---通过修改时间查找(-mtime)

通过man手册查找和-mtime选项相关的内容 man find | grep -A 3 mtime # 这里简单介绍了 -mtime ,还有一个简单的示例-mtime n Files data was last modified n*24 hours ago. See the comments for -atime to understand how rounding affects the interpretati…

时间序列预测 — VMD-LSTM实现单变量多步光伏预测(Tensorflow):单变量转为多变量

目录 1 数据处理 1.1 导入库文件 1.2 导入数据集 1.3 缺失值分析 2 VMD经验模态分解 3 构造训练数据 4 LSTM模型训练 5 预测 1 数据处理 1.1 导入库文件 import time import datetime import pandas as pd import numpy as np import matplotlib.pyplot as plt f…

spring boot学习第五篇:spring boot与JPA结合

1、准备表,创建表语句如下 CREATE TABLE girl (id int(11) NOT NULL AUTO_INCREMENT,cup_Size varchar(100) COLLATE utf8mb4_bin DEFAULT NULL,age int(11) DEFAULT NULL,PRIMARY KEY (id) ) ENGINEInnoDB AUTO_INCREMENT4 DEFAULT CHARSETutf8mb4 COLLATEutf8mb4…

python爬取robomaster论坛文章数据,携带登录信息

一. 内容简介 python爬取robomaster论坛文章数据。 二. 软件环境 2.1vsCode 2.2Anaconda version: conda 22.9.0 2.3代码 三.主要流程 3.1 接口分析,以及网页结构分析 # 这是文章链接,其实id就是文章的id # https://bbs.robomaster.com/forum.php?modview…

RocketMQ-RocketMQ高性能核心原理(流程图)

1.NamesrvStartup 2.BrokerStartup 3. DefualtMQProducer 4.DefaultMQPushConsumer

mybatis和mybatisplus中对 同namespace 中id重复处理逻辑源码解析

一、背景 同事在同一个mapper.xml (namespace相同),复制了一个sql没有修改id,正常启动项目。但是我以前使用mybatis的时候如果在namespace相同情况下,id重复,项目会报错无法正常启动,后来看代码…

数学建模-数据新动能驱动中国经济增长的统计研究-基于数字产业化和产业数字化的经济贡献测度

数据新动能驱动中国经济增长的统计研究-基于数字产业化和产业数字化的经济贡献测度 整体求解过程概述(摘要) 伴随着数据要素化进程的不断加深,对于数据如何作用于经济发展,数据与其他要素结合产生的动能应该如何测度的研究愈发重要。本文将数据新动能分…

Flume 安装部署

文章目录 Flume 概述Flume 安装部署官方网址下载安装配置文件启动 Flume 进程启动报错输出文件乱码问题 Flume 概述 Flume(Apache Flume)是一个开源的分布式日志收集、聚合和传输系统,属于 Apache 软件基金会的项目之一。其主要目标是简化大…

本科毕业论文查重的依据

大家好,今天来聊聊本科毕业论文查重的依据,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧: 本科毕业论文查重依据:维护学术诚信的基石 摘要: 本科毕业论文是衡量学生学…

Navicat 技术指引 | 适用于 GaussDB 分布式的数据查看器

Navicat Premium(16.3.3 Windows 版或以上)正式支持 GaussDB 分布式数据库。GaussDB 分布式模式更适合对系统可用性和数据处理能力要求较高的场景。Navicat 工具不仅提供可视化数据查看和编辑功能,还提供强大的高阶功能(如模型、结…

自动驾驶:传感器初始标定

手眼标定 机器人手眼标定AxxB(eye to hand和eye in hand)及平面九点法标定 Ax xB问题求解,旋转和平移分步求解法 手眼标定AXXB求解方法(文献总结) 基于靶的方法 相机标定 (1) ApriTag (2) 棋盘格:cv::f…

【前端】CSS基础(学习笔记)

一、简介 1、HTML局限性 HTML只关注内容的语义,但是丑! 2、CSS概要 CSS 是层叠样式表 ( Cascading Style Sheets ) 的简称,有时我们也会称之为 CSS 样式表或级联样式表。 CSS 是也是一种标记语言 CSS 主要用于设置 HTML 页面中的文本内…

Django的logging-日志模块的简单使用方法

扩展阅读: Python-Django的“日志功能-日志模块(logging模块)-日志输出”的功能详解 现在有下面的Python代码: # -*- coding: utf-8 -*-def log_out_test(content_out):print(content_out)content1 "i love you01" log_out_test(content1)现…

前端使用视频作为背景图的方法

实现思路 通过 video source 引入视频&#xff0c;并对视频播放属性进行设置&#xff0c;再通过 css 使视频覆盖背景即可。 代码 <!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>有开发问题可联系作者</title>…

Amazon CodeWhisperer 提供新的人工智能驱动型代码修复、IaC 支持以及与 Visual Studio 的集成...

Amazon CodeWhisperer 的人工智能&#xff08;AI&#xff09;驱动型代码修复和基础设施即代码&#xff08;IaC&#xff09;支持已正式推出。Amazon CodeWhisperer 是一款用于 IDE 和命令行的人工智能驱动型生产力工具&#xff0c;现已在 Visual Studio 中推出&#xff0c;提供预…

VUE+webrtc-streamer 实现实时视频播放(监控设备-rtsp)

效果 下图则启动成功&#xff0c;此时在浏览器访问127.0.0.1:8000可以看到本机监控画面 1、下载webrtc-streamer 地址&#xff1a;https://github.com/mpromonet/webrtc-streamer/releases 2、解压下载包 3、双击webrtc-streamer.exe启动服务 4、将下载包html文件夹下webrt…

使用pytorch查看中间层特征矩阵以及卷积核参数

这篇是我对哔哩哔哩up主 霹雳吧啦Wz 的视频的文字版学习笔记 感谢他对知识的分享 1和4是之前讲过的alexnet和resnet模型 2是分析中间层特征矩阵的脚本 3是查看卷积核参数的脚本 1设置预处理方法 和图像训练的时候用的预处理方法保持一致 2实例化模型 3载入之前的模型参数 4载入…

pyside/qt03——人机协同的编程教学—直接面向chatGPT实战开发(做中学,事上练)

先大概有个草图框架&#xff0c;一点点丰富 我纠结好久&#xff0c;直接用Python写UI代码 还是用designer做UI 再转Python呢&#xff0c; 因为不管怎么样都要转成Python代码&#xff0c; 想了想还是学一下designer吧&#xff0c;有个中介&#xff0c;有直观理解。 直接这样也可…

Python---random库

目录 基本随机数函数(): rand.seed() random() 扩展随机数函数(): random库包含两类函数&#xff1a;基本随机数函数&#xff0c;扩展随机数函数 基本随机数函数:seed(),random() 扩展随机数函数&#xff1a;randint,getrandbits(),uniform(),randrange(),choice(),shuff…

使用git push太慢怎么办

使用git push太慢怎么办 修改host文件&#xff1a; windows 的路径应该在 C:\Windows\System32\drivers\etc\hosts 在host文件的最后一行加上 151.101.72.249 github.global.ssl.fastly.nethost不允许修改就复制一份&#xff0c;修改好了再替换掉&#xff0c;可能会让你输入…