AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(2.4 -大模型发展历程 之 多模态)

文章大纲

  • 什么是多模态
    • 为什么 Transformer 也是多模态模型的基础架构
    • 视觉 Transformer 和 Text Transformer 如何结合 - contrastive learning 对比学习
  • stable diffusion
  • “ CLIP + 其他模型”成为通用的做法
  • 多模态模态生成:文字生成图像取得突破,其他领域仍有待提升
  • 参考文献与学习路径
    • GPT 系列模型解析
    • 前序文章
    • 模型进化
    • 券商研报
    • 陆奇演讲
    • 多模态


什么是多模态

多模态生成, 指将一种模态转换成另一种模态, 同时保持模态间语义一致性 。主要集中在文字生成图片 、文字生成视频及图片生成文字。

为什么 Transformer 也是多模态模型的基础架构

多模态数据的最大挑战之一就是要汇总多种模式(或视图)中的信息,以便在过滤掉模式的冗余部分的同时,又能将补充信息考虑进来。

第一个是任务方面,之前的多模态任务是怎么做的,为什么现在大家会转向Transformer做多模态任务?

在Transformer,特别是Vision Transformer出来打破CV和NLP的模型壁垒之前,CV的主要模型是CNN,NLP的主要模型是RNN,那个时代的多模态任务,主要就是通过CNN拿到图像的特征,RNN拿到文本的特征,然后做各种各样的Attention与concat过分类器,这个大家可以从我文章栏的一篇ACL论文解说《Writing by Memorizing: Hierarchical Retrieval-based Medical Report Generation》略窥一二,使用这种方式构造出来的多模态模型会大量依赖各种模型输出的特征进行多重操作,pipeline巨大并且复杂,很难形成一个end2end的方便好用的模型

第二个是模型原理层面,为什么Transformer可以做图像也可以做文本,为什么它适合做一个跨模态的任务?

说的直白一点,因为Transformer中的Self-Attetion机制很强大,使得Transformer是一个天然强力的一维长序列特征提取器,而所有模态的信息都可以合在一起变成一维长序列被Transformer处理

视觉 Transformer 和 Text Transformer 如何结合 - contrastive learning 对比学习

在这里插入图片描述

2021年, OpenAI发布了CLIP, 是一种经典的文图跨模态检索模型, 在大规模图文数据集上进行了对比学习预训练, 具有很强的文图跨模态表征学习能 力 。CLIP模型包含图像和文本的Encoder两部分, 用于对图像和文本分别进行特征抽取。

clip 的核心是使用INfoNCE Loss进行文本和图像两种模态间互信息最大化

对比学习首先学习未标记数据集上图像的通用表示形式,然后可以使用少量标记图像对其进行微调,以提升在给定任务(例如分类)的性能。简单地说,对比表示学习可以被认为是通过比较学习。相对来说,生成学习(generative learning)是学习某些(伪)标签的映射的判别模型然后重构输入样本。在对比学习中,通过在输入样本之间进行比较来学习表示。对比学习不是一次从单个数据样本中学习信号,而是通过在不同样本之间进行比较来学习。可以在“相似”输入的正对和“不同”输入的负对之间进行比较。

在这里插入图片描述

对比学习通过同时最大化同一图像的不同变换视图(例如剪裁,翻转,颜色变换等)之间的一致性,以及最小化不同图像的变换视图之间的一致性来学习的。 简单来说,就是对比学习要做到相同的图像经过各类变换之后,依然能识别出是同一张图像,所以要最大化各类变换后图像的相似度(因为都是同一个图像得到的)。相反,如果是不同的图像(即使经过各种变换可能看起来会很类似),就要最小化它们之间的相似度。通过这样的对比训练,编码器(encoder)能学习到图像的更高层次的通用特征 (image-level representations),而不是图像级别的生成模型(pixel-level generation)。

参考:https://towardsdatascience.com/a-framework-for-contrastive-self-supervised-learning-and-designing-a-new-approach-3caab5d29619

stable diffusion

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

“ CLIP + 其他模型”成为通用的做法

多模态定义: 多模态生成, 指将一种模态转换成另一种模态, 同时保持模态间语义一致性 。主要集中在文字生成图片 、文字生成视频及图片生成文字。
◼ Transformer架构的跨界应用成为跨模态重要开端之一 。多模态训练普遍需要匹配视觉的区域特征和文本特征序列, 形成Transformer架构擅长处理的一 维长序列, 与Transformer的内部技术架构相符合 。此外Transformer架构还具有更高的计算效率和可扩展性, 为训练大型跨模态模型奠定了基础。
◼ CLIP ( Contrastive Language-Image Pre-training, 可对比语言-图像预训练算法) 成为图文跨模态重要节点。
✓ 2021年, OpenAI发布了CLIP, 是一种经典的文图跨模态检索模型, 在大规模图文数据集上进行了对比学习预训练, 具有很强的文图跨模态表征学习能 力 。CLIP模型包含图像和文本的Encoder两部分, 用于对图像和文本分别进行特征抽取。
✓ “CLIP+其他模型”在跨模态生成领域成为较通用的做法, 如Disco Diffusion, 其原理为CLIP模型持续计算Diffusion模型随机生成噪声与文本表征的 相似度, 持续迭代修改, 直至生成可达到要求的图像。

论文标题:Learning Transferable Visual Models From Natural Language Supervision
论文链接:https://arxiv.org/abs/2103.00020
github: https://github.com/OpenAI/CLIP

在这里插入图片描述


多模态模态生成:文字生成图像取得突破,其他领域仍有待提升

◼ 文字生成图像: 2021年, OpenAI推出了CLIP和DALL-E, 一年后推出了DALL-E2; 2022年5月, 谷歌推出了Imagen和新一代AI绘画大师Parti; 2022年 8月, Stability Al推出Stable diffusion并宣布开源 。国内主流的AI绘画平台有文心一格 、盗梦师 、意间AI 、Tiamat等。
◼ 文字生成视频: 以Token为中介, 关联文本和图像生成, 逐帧生成所需图片, 最后逐帧生成完整视频 。但由于视频生成会面临不同帧之间连续性的问题, 对 生成图像间的长序列建模问题要求更高, 以确保视频整体连贯流程 。按技术生成难度和生成内容, 可区分为拼凑式生成和完全从头生成。

◼ 图像/视频生成文本: 具体应用有视觉问答系统 、配字幕 、标题生成等, 代表模型有METER 、ALIGN等。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述


参考文献与学习路径

车万翔等统稿

  • ChatGPT 调研报告

模型部署简介

  • https://github.com/open-mmlab/mmdeploy/blob/master/docs/zh_cn/tutorial/01_introduction_to_model_deployment.md

GPT 系列模型解析

ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT

  • https://blog.csdn.net/v_JULY_v/article/details/128579457

数云融合|探究GPT家族的进化之路:GPT-3、GPT-3.5和GPT-4的比较分析

  • https://zhuanlan.zhihu.com/p/616691512

前序文章

  • 初探 GPT-2
  • 生成式AI(Generative AI)将重新定义生产力
  • AIGC 后下一个巨大的风口:AI生成检测
  • 代表AIGC 巅峰的ChatGPT 有哪些低成本开源方案能够复现?
  • 如何驯化生成式AI,从提示工程 Prompt Engineering 开始 !

模型进化

面向统一的AI神经网络架构和预训练方法

  • https://www.sohu.com/a/673342257_121124371

券商研报

从ChatGPT到生成式AI:人工智能新范式重新定义生产力

  • https://xueqiu.com/9005856403/240887888
  • https://xueqiu.com/5159309685/241858304
    浙商证券:《AIGC算力时代系列:ChatGPT研究框架》
    国泰君安:ChatGPT研究框架(2023)

腾讯研究院:AIGC发展趋势报告2023

华东政法大学:人工智能通用大模型ChatGPT的进展风险与应对

  • http://www.199it.com/archives/1568017.html

ChatGPT浪潮下,看中国大语言模型产业发展

  • https://www.iresearch.com.cn/Detail/report?id=4166&isfree=0

AI服务器拆解,产业链核心受益梳理

  • https://xueqiu.com/2524803655/247578353

国海证券,AIGC深度行业报告:新一轮内容生产力革命的起点
https://xueqiu.com/6695901611/243415262

陆奇演讲

飞书的赛比链接不能复制只能看。。。

陆奇演讲PPT官方版
https://miracleplus.feishu.cn/file/TGKRbW4yrosqmixCtprcUlAynzg
陆奇演讲视频官方版
https://miracleplus.feishu.cn/file/OrO7bivJeoT6FxxSjaJcXWlwncS
陆奇演讲文本官方版
https://miracleplus.feishu.cn/docx/Mir6ddgPgoVs3KxF6sncOUaknNS

微信公众号版本 ,能复制

  • https://mp.weixin.qq.com/s/fzYxwaANqWpqxC__1zTNDA

多模态

为什么Transformer适合做多模态任务?

  • https://www.zhihu.com/question/441073210/answer/2991137965
  • https://www.zhihu.com/question/441073210

直观理解Stable Diffusion

  • https://zhuanlan.zhihu.com/p/598999843

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16501.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

快速生成电子发票的EXCEL表格

有时候我们需要根据大量的电子发票做一个EXCEL表,总不能依靠手工的录入吧,十几张还能接受,要是上百张电子发票,那就太不现实了,那么有什么好办法吗? 打开好票友电子发票管理系统,点击批量导入的…

你想要知道的“全电发票接口”

老规矩,即使你看到此文前,你多少知道点“全电发票”的一些知识,这里方便那些还没得空抢先获取的知友小伙伴们梳理下相关知识点。 ** 一、全电发票具体的定义 ** 全电发票是国家税务总局随着金税四期推出的全国统一的电子发票服务平台&…

小程序、APP如何进行电子发票开发对接

实际上电子发票早在3年前就已经有了,只是今年2019年大家对电子发票的接受程度有了爆发性的增长,电子发票的好处如下: 1)在交易的同时取得电子发票并进行查验,降低收到假发票的风险。 2)方便保存、使用发票&…

Python对Excel以某列进行拆分成小文件(与ChatGPT合作)

我们在办公中经常需要以Excel中的某一列进行文件拆分(拆分出小文件),今天就与ChatGPT合作了一把,共同完成了这个GUI办公拆分Excel小工具 先看需求图片: 这个需求已经完美解决啦,先看一下视频,是不是你想要的效果&…

一文包揽:大模型、AI大模型、GPT模型

目录 一、大模型 1.1大模型是什么? 1.2为什么模型越大也好 二、AI大模型 2.1 AI大模型到底是什么? 2.2 AI大模型的优势 2.2.1 上下文理解能力 2.2.2 语言生成能力 2.2.3 学习能力强 2.2.4 可迁移性高 2.3国内哪些公司有大模型 三、GPT模型 …

自然语言处理复习

好了,我考完了,我花了40min走出考场,不是因为都会,而是因为不会的是一点不会哇 更正一下,gpt那里考的相当变态,考了few shot learning,填空题就更变态了(谁去给老师说让他把难度调高点的&#…

GPT系列简介与gpt训练(nanoGPT)

generateivelt pre-trained transformer ,GPT使用transformer做特征提取行,单项语言模型作为训练任务 gpt 1.0 通过自左向右生成式的构建预训练任务,然后得到一个通用的预训练模型,这个模型和BERT一样都可用来做下游任务的微调。GPT-1当时在…

《花雕学AI》08:你也能玩转ChatGPT—需要应用与拓展的49种场景

ChatGPT的基本原理和功能: 1、ChatGPT是一个基于GPT-3或者GPT-4模型的人工智能聊天机器人,它能够理解和生成自然的文本回答。 2、GPT-4是一个由OpenAI开发的大型语言模型,它能够从互联网上的海量文本数据中学习语言规律和知识。 3、ChatGP…

【人工智能】LLM 大型语言模型发展历史

【人工智能】LLM 大型语言模型发展历史 文章目录 【人工智能】LLM 大型语言模型发展历史前言一、发展历史通过编写一系列的规则尝试使用神经网络模型深度学习: 基于递归神经网络GPT.x —— 基于Transformer 模型二、技术原理编码器和解码器自注意力机制最大似然估计什么是“所有…

A股全市场股票历史行情1分钟高频数据

A股全市场股票历史行情1分钟高频数据 百度共享网盘 链接: https://pan.baidu.com/s/1Ki9lBRNrv1_5ufgmNdrlVQ 提取码: fxb4 20210年 -2021年分批按年压缩,2022年之后按月压缩。 最早1分钟数据开始于2021年: 2021年1分钟数据分5个压缩包: …

签名支持全球管控AI 三巨头侧漏“求生欲”

又一封“群星云集”警示AI风险的公开信来了,这封信的内容简短但措辞炸裂:减轻 AI 带来的灭绝风险,应该与管控流行病和核战争等其他社会级规模的风险一样,成为一项全球优先事项。 5月30日,这纸原文只有22个单词的声明&…

成都链安安全月报|6月区块链生态安全事件损失超9766.4 万美元

6月,各类安全事件造成的损失金额较5月大幅度上升。6月发生较典型安全事件超24起,各类安全事件造成的损失总金额约9766.4 万美元,较5月上涨约54.3%。本月最大的安全事件来自于Atomic Wallet钱包被盗事件,损失约6700万美元。第二大安…

LangChain学习:chains

文章目录 1. LLMChain2. SimpleSequentialChain3. SequentialChain4. LLMRouterChain learn from https://learn.deeplearning.ai/langchain 1. LLMChain from config import api_type, api_key, api_base, api_version, model_name from langchain.chat_models import Azure…

百度CTO王海峰做客《中国经济大讲堂》:文心一言,读书破万亿

当下,大语言模型热度空前,诸如文心一言、ChatGPT 等已经能够与人对话互动、回答问题、协助创作,逐渐应用于人们的工作和生活,也引发了社会热议。近日,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰再…

「文心一言」内测详细使用体验

★观前提示:以下内容仅为内测测试内容,不代表未来正式版如何,或许你认为它与chatgpt仍有不小的差距,或许你认为它目前做的已经不错了,都可以,但是咱们测试体验,只讲述体验,本篇文章不…

mysql数据库介绍

💜今天对mysql的一些基础概念进行讲诶横扫,如概念、特点、优势、发展历史等等。对之前内容感兴趣的同学可以参考👇: 链接: mysql学习之数据系统概述 🎾让我们开始今日份的学习吧! 目录 1. mysql的基本概…

【C++】第 3 课 - do-while 循环应用案例 - 水仙花数

欢迎来到博主 Apeiron 的博客,祝您旅程愉快 ! 时止则止,时行则行。动静不失其时,其道光明。 目录 1、缘起 2、案例描述 3、示例代码 4、总结 1、缘起 以前在学习 C 语言 的时候,就做过水仙花数的练习题。在…

USB设备驱动学习记录

IN/OUT: 0:EHCI主控架构 1.关于设备地址SET_ADDRESS设置的逻辑: 可以看到set_address命令最终通过USB_DRV_WriteReg8(&musb->faddr, g_udc.address);将g_udc.address设置给了硬件,而此地址来源于主机 打印输出: 可以看到主机通过EP0…

【通义千问】继ChatGPT爆火后,阿里云的大模型“通义千问”它终于来了

通义千问 一、通义千问名字的由来二、通义千问和ChatGPT有什么区别呢?三、如何申请体验通义千问呢?四、未来通义千问能称为中国版的ChatGPT吗?五、通义千问什么时候正式发布呢? 一、通义千问名字的由来 通义千问顾名思义&#xf…