SEEChat:360人工智能研究院的中文多模态大模型

卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完

本文来源   机器之心   作者:冷大炜,360 人工智能研究院

刚刚过去的 22 年被媒体誉为 “AIGC 元年”,这一年中 AI 绘画和 chatGPT 相继引爆了全球科技界,成为人工智能领域的两大里程碑事件,特别是 chatGPT 的推出,又重新点燃了人们对通用人工智能 AGI 的新一轮期待,chatGPT 所表现出来的前所未有的逻辑能力和推理能力,让众多 AI 领域的专家和研究人员不禁为之赞叹。与此同时,更多的企业和机构也开始尝试将 chatGPT 应用于自己的业务中,希望通过人工智能的力量来提升工作效率和解决难题。

ChatGPT 是基于 GPT3.5 开发的纯文本单模态的语言模型,对于它的下一代更新,我们之前猜测除了文本能力的继续提升外,从单模态过渡到多模态将是更为关键的一点,今年 3 月 15 日 GPT4 的推出,证实了我们的推测:GPT4 做为新一代的 GPT 模型,增加了对视觉模态输入的支持,这意味着它能够理解图像并进行相应的自然语言生成。

增加了多模态能力的 GPT4 也带来了应用层面的更多可能,比如在电商领域中,商家可以将产品图像输入 GPT4 进行描述生成,从而为消费者提供更加自然的商品介绍;在娱乐领域中,GPT4 可以被用于游戏设计和虚拟角色创造,为玩家带来更加个性化的游戏体验和互动快乐。视觉能力一向被视为一个通用人工智能 AGI 智能体所需必备的基础能力,而 GPT4 则向人们生动展示了融合视觉能力的 AGI 的雏形。

视觉能力融合的方案和优劣对比

实际上 GPT4 并不是第一个将视觉与文本模态相融合的工作,CV、NLP 以及机器人等领域的科研人员长久以来一直在探寻各种方法将多个不同模型的信息相融合的方法,像 VQA、Visual Captioning、Visual Grounding 等都已经是多模态下细分的专业研究领域。

具体到将视觉能力融入语言模型 LLM 的 MLLM(Multimodal Large Language Model),相关的研究路线主要分为两条:一条是原生多模态路线,模型设计从一开始就专门针对多模态数据进行适配设计,代表性的工作有 MSRA 的 KOSMOS-1 [1] 和 Google Robotics 的 PALM-E [2],均在今年 3 月份公开;另一条是单模态专家模型缝合路线,通过桥接层将预训练的视觉专家模型与预训练的语言模型链接起来,代表性的工作有 Deepmind 的 Flamingo [3],Saleforce 的 BLIP-2 [4],以及近期的 LLAVA [5] 和 miniGPT4 [6] 等工作。

700ef4e35171b81fb3b4f48ce55bb03b.png

图 1  MLLM 代表性工作时间线

以 KOSMOS-1 和 PALM-E 为代表的原生多模态路线,模型结构主体均为 Transformer 堆叠。下图为 KOSMOS-1 的模型结构和训练方案,其中除了 image encoder 部分使用的是预训练的 CLIP ViT-L/14 外,模型主体 MLLM 部分是 24 层的 Transformer 堆叠,使用原生的多模态数据从头训练。

多模态数据由三部分组成:a) 纯文本,以 Pile 和 Common Crawl 为主;b) image-text pair 数据,以 LAION-2B,LAION-400M,COYO-700M, and Conceptual Captions 为主;c) 图文混合数据(Interleaved Image-Text Data),包含 71M 页图文网页数据。通过将 image embedding 以如下格式与 text embedding 相连缀:<s><image>Image Embedding </image>WALL-E giving potted plant to EVE. </s>,KOSMOS-1 用自回归 loss 对图文数据进行统一建模。

f4fcd313079c06a1e21b23507ac48b7c.png

图 2  KOSMOS-1 模型结构与训练方案

PALM-E 与 KOSMOS-1 相比,模型结构和对多模态数据的建模方式基本相同,下图 3 为 PALM-E 的模型结构和训练方案,其中 < emb > 为机器人的状态估计向量。与 KOSMOS-1 相比最大的不同在于,PALM-E 使用单模态语言模型 PALM 的权重对模型进行了初始化。

1b1d3950039ade1a95cbae19fdeffc73.png

图 3  PALM-E 模型结构与训练方案

原生多模态路线的优势在于,模型结构原生适配多模态数据,在数据量充足的情况下效果优秀,相关领域的经验也表明这种方式的性能上限更高,但缺点也很明显,不能充分复用各个单模态领域的已有成果,训练需要的计算资源和数据资源都非常大。

与原生多模态路线相对的,以 Flamingo、BLIP-2、LLAVA/miniGPT4 为代表的单模态专家模型缝合路线,从一开始模型的设计思路就是尽可能复用各个单模态领域的已有成果特别是近期发展迅速的 LLM 的预训练模型。Flamingo 是 Deepmind 在 22 年 11 月发表的工作,在 freeze 住 vision encoder 和 LM 的基础上,通过在 LM 中插入多个 cross-attention 层来实现视觉信息与文本信息的对齐和联合学习。

a03f44273952f6cb018545612fa1922d.png

图 4  Flamingo 模型结构与训练方案

与 KOSMOS-1 相比,Flamingo 这种缝合方案充分利用了 CV 领域和 NLP 领域的已有成果,vision encoder 和 LM 均不需要训练,只需要对做为不同模态信息之间做为桥接的 cross-attention 层(图 4 中的 GATED XATTN-DENSE)进行训练,因此至少在模型训练成本上就有很明显的优势。

而 23 年 1 月 salesforce 发表的 BLIP-2 工作以及后续衍生的 LLAVA、miniGPT4 等工作则将这一思路进一步简化到 vision encoder 和 LM 之间只通过单个桥接层进行链接,下图 5 是 BLIP-2 的模型结构,其中视觉侧和文本侧分别使用预训练的 CLIP ViT-G/14 模型和 FLAN-T5 模型,仅中间的起桥接作用的 Q-Former 参与训练,训练需要的成本和数据量进一步降低,BLIP-2 的训练数据量仅 129M,16 卡 A100 训练 9 天。

后来的 LLAVA 工作更是将这一思路简化到极致,仅通过一个 projection layer 将 CLIP ViT-L/14 和 Vicuna 语言模型缝合在一起,训练数据仅用了 595K 图文对以及 158K 指令微调数据。miniGPT4 则是在复用 BLIP-2 的 vision encoder + Q-Former 的基础上,通过一层 project layer 缝合了 Vicuna 语言模型,训练数据仅用了 5M 的图文对数据 + 3.5K 的指令微调数据。

ac212ecb705db92678e149a9eb5a5268.png

图 5  BLIP-2 模型结构

与原生多模态路线相比,单模态专家模型缝合路线最明显的优势是可以充分复用各个单模态领域的已有成果,成本低,见效快,有研究人员猜测 GPT4 可能也是基于缝合路线实现的视觉理解能力。但基于缝合路线的缺陷也显而易见,尤其像 BLIP-2、LLAVA、miniGPT4 这样简单的浅层融合方案,最终训练得到的 MLLM 模型能力通常只能做单轮或多轮对话,不具备像 Flamingo 这种深层融合方案以及 KOSMOS-1、PALM-E 等原生多模态方案所展现出的多模态 in-context learning 能力。

SEEChat 多模态对话模型

SEEChat 项目(https://github.com/360CVGroup/SEEChat)的重点是将视觉能力与已有的 LLM 模型相融合,打造侧重视觉能力的多模态语言模型 MLLM。在多模态能力的实现路线上,我们选择了能够充分复用不同领域已有成果的单模态专家模型缝合路线(Single-modal Experts Efficient integration), 这也是 SEEChat 项目的命名来源。

SEEChat v1.0 的模型结构如下图 6 所示,通过 projection layer 桥接层,将 vision encoder: CLIP-ViT-L/14 与开源的中文 LM:chatGLM6B 缝合到一起。

f1728c7695c28d314892b07b76c42b1d.png

图 6  SEEChat 模型结构

SEEChat v1.0 的训练分为两个阶段:第一阶段是图文对齐训练,使用我们之前开源的高质量中文图文对数据集 Zero [7],总共 2300 万样本进行训练;第二阶段是人机对齐训练,使用 miniGPT4+LLAVA 开源的指令微调数据经英 - 中翻译后,对第一阶段训练好的模型进行指令微调。

下图 7~9 是关于 SEEChat v1.0 在图文对话、代码生成和目标分类能力的简单展示。可以看到,SEEChat 一方面继承了 chatGLM 语言模型在对话方面的能力(当然也继承了其缺点),另一方面表现出了令人印象深刻的图文对齐和视觉理解能力。

66c55b4a4f5aa3403f1df79f312409b5.png图 7  SEEChat v1.0 图文对话展示

e3abdd6f96f0ada6a01b1ea0fd0ada53.png

图 8  SEEChat v1.0 图文对话展示

f3ffe8ba875a37dfa6a7bc60be110a2a.png

图 9  SEEChat v1.0 图文对话展示

SEEChat 并不是第一个开源的中文多模态对话模型,同期 5 月份,已经有中科院自动化所的 X-LLM [8] 和清华 KEG 组的 VisualGLM [9] 相继开源。与之相比,SEEChat v1.0 不论在路线选择还是模型结构上与前述两个工作大体相同,只在模型细节和训练数据与方法上存在不同。我们认为,对于当前的浅层融合方案,一个很关键的点在于训练用的数据质量而不是数量。我们在 image captioning 任务上将 SEEChat v1.0 与相关的多个工作进行了对比:

  • 从中文 Zero 数据集中随机选取 1000 张中文互联网图像,已排除训练集数据

  • 使用 ChineseCLIP [10] 计算图文相关性得分(为避免训练数据重叠带来的偏置,我们没有使用自己训练的 R2D2 中文跨模态模型,而是选取了第三方训练的跨模态模型进行图文相关性得分的评价)

  • 上图为七种公开方法(我们将数据原生的互联网文本做为其中一种方法看待)的图文相关性得分胜出情况

可以看到,使用高质量图文数据集 Zero 训练的 SEEChat v1.0,胜出率甚至大比例超过原生文本。

935caf0379292d4d8bfb27859ecf6264.png

图 10  不同模型在 Image Captioning 任务上的对比

未来的工作

SEEChat 项目包含两个版本:内部闭源版本使用企业内部数据训练,主打业务生产力;外部开源版本使用公开数据训练,主打能力展示和社区影响。目前 SEEChat v1.0 的内部版本已在集团内部业务落地,并在 5 月 31 日以 “360 智脑 - CV 多模态大模型” 的品牌对外发布。

如前所述,SEEChat 项目的重点是将视觉能力与已有的 LLM 模型相融合,打造侧重视觉能力的多模态语言模型 MLLM,v1.0 验证了基础的图文对齐和视觉理解能力,接下来我们将逐步为 MLLM 添加目标检测能力、跨模态能力以及开放词表的目标检测与识别能力,模态融合方案也将从浅层融合向深层融合过渡,敬请期待。

作者简介

冷大炜:360人工智能研究院视觉引擎部负责人,目前带领研究院视觉团队在多模态大模型,AIGC,跨模态图文学习,开放世界目标检测,开放词表视频分析,AIoT等方向进行前沿探索和工业落地工作。

参考文献

[1] Huang, Shaohan, et al. "Language is not all you need: Aligning perception with language models." arXiv preprint arXiv:2302.14045 (2023).

[2] Driess, Danny, et al. "Palm-e: An embodied multimodal language model." arXiv preprint arXiv:2303.03378 (2023).

[3] Alayrac, Jean-Baptiste, et al. "Flamingo: a visual language model for few-shot learning." Advances in Neural Information Processing Systems 35 (2022): 23716-23736.

[4] Li, Junnan, et al. "Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models." arXiv preprint arXiv:2301.12597 (2023).

[5] Liu, Haotian, et al. "Visual instruction tuning." arXiv preprint arXiv:2304.08485 (2023).

[6] Zhu, Deyao, et al. "Minigpt-4: Enhancing vision-language understanding with advanced large language models." arXiv preprint arXiv:2304.10592 (2023).

[7] Zero, https://zero.so.com/

[8] Chen, Feilong, et al. "X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages." arXiv preprint arXiv:2305.04160 (2023).

[9] VisualGLM, https://github.com/THUDM/VisualGLM-6B

[10] ChineseCLIP, https://github.com/OFA-Sys/Chinese-CLIP

关注公众号【机器学习与AI生成创作】,更多精彩等你来读

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

b2185b0f0dca7f5a16e5d8a3cf01b25e.png 戳我,查看GAN的系列专辑~!

一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

点击一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!,加入 AI生成创作与计算机视觉 知识星球!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29630.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

就业数据|北上广深不再是首选,应届生奔向新一线

来源&#xff1a;猎聘 本文约4900字&#xff0c;建议阅读10分钟 总体就业形势严峻&#xff0c;压力与机遇并存。 2023年高校毕业生预计达1158万人&#xff0c;创历史新高。大学生作为重点就业人群之一&#xff0c;历来备受社会各界关注。 时值大学生就业冲刺阶段&#xff0c;猎…

优化公积金政策,聊胜于无

阅读本文大概需要 1.27 分钟。 最近看到一个新闻&#xff0c;提到说部分地区&#xff0c;比如江苏南通、江苏连云港、安徽马鞍山、安徽亳州、浙江丽水、广东梅州、安徽蚌埠、江西赣州、云南玉溪、湖南株洲、广东深圳等地宣布调整住房公积金贷款政策。 给出的政策&#xff0c;简…

闲来无事,20 分钟水了一个贷款计算器(Chatgpt 协助下),发现了房贷的 3 个秘密

闲来无事&#xff0c;20 分钟水了一个贷款计算器&#xff08;Chatgpt 协助下&#xff09;&#xff0c;发现了房贷的 3 个秘密 这是一篇来自社区的投稿&#xff0c;作者谢绍康&#xff0c;He3 开放平台的内测用户&#xff0c;贷款计算器工具作者&#xff0c;以下为原文。 在搞定…

爆料,华为重回深圳,深圳第二个硅谷来了-龙华九龙山未来可期

房地产最重要的决定因素&#xff1a;科技等高附加值产业&#xff01;过去几年&#xff0c;发生的最大的变化就是——科技巨头对全球经济的影响力越来越大&#xff0c;中美之间的博弈&#xff0c;由贸易战升级为科技战&#xff0c;就是基于此原因。人工智能、电子信息技术产业、…

从GPT-4、文心一言再到Copilot,AIGC卷出新赛道?

业内人都知道&#xff0c;上一周是戏剧性的&#xff0c;每一天&#xff0c;都是颠覆各个行业&#xff0c;不断 AI 化的新闻。 OpenAI发布GPT-4、百度发布文心一言、微软发布Microsoft 365 Copilot 三重buff叠加&#xff0c;打工人的命运可以说是跌宕起伏&#xff0c;命途多舛了…

Qt:读取已有数据的Excel文档,并将数据显示在通过QTableWidget绘制的表格中,之后将显示的数据保存成excel格式进行输出(包括表头等内容)

读取已有数据的Excel文档&#xff0c;并将数据显示在通过QTableWidget绘制的表格中&#xff0c;之后将显示的数据保存成excel格式进行输出&#xff08;包括表头等内容&#xff09; UI展示及功能简介 读取 //于Mainwindow中,on_read_clicked属于Pushbotton摁键的槽函数 void Ma…

chatgpt赋能python:如何利用Python处理表格

如何利用Python处理表格 在网站开发中&#xff0c;表格是至关重要的一种元素&#xff0c;它能够将复杂的信息整理成易于阅读和理解的格式。然而&#xff0c;在建立大型表格时&#xff0c;手动编写和修改HTML表格可能会变得繁琐和费时。利用Python可以轻松地批量处理和修改表格…

chatgpt赋能python:Python读取表格内容的方法

Python读取表格内容的方法 Python是一门功能强大而且易于理解的编程语言&#xff0c;在数据分析、数据科学和机器学习等领域中越来越受欢迎。在这些领域中&#xff0c;经常需要读取并处理表格数据的能力。在这篇文章中&#xff0c;我们将介绍Python中读取表格数据的常用方法。…

终于找到ChatGPT+Python爬虫搞钱新思路,快点上车

今年真是太科幻了&#xff0c;各路令人赞叹的AI产品接连问世&#xff0c;感觉幻想过的未来已在眼前。就与多年前移动互联网的普及一样&#xff0c;我们正处于AI改变世界的前夜。 在众多优秀的人工智能产品中&#xff0c;以ChatGPT最为火爆&#xff01;在OpenAI为其推出了GPT-4…

使用Python统计股票高开后的走势

股票高开是指当日股票的开盘价高于昨日的收盘价&#xff0c;为什么会这样&#xff1f;莫不是机构背着咱们搞交易&#xff1f; 股票开盘价由集合竞价产生&#xff0c;我们知道股市开盘时间为9:30-11:30~13:00-15:00&#xff0c;但集合竞价时间在9:15-9:30&#xff0c;这意味着有…

基于tushare的A股市场行情维护程序

基于tushare的A股市场行情维护程序 1 开发背景&#xff1a;2 tushare 简介3 功能需求3.1 tushare数据获取接口封装3.2 A股全市场股票日线数据的批量下载和更新 4 软件设计5 程序实现5.1 AshareDailyData.py5.2 TuShare.py 6 运行界面截图7 参考资料 1 开发背景&#xff1a; 笔…

利用Tushare获取股票数据(全面详细,照着敲就可以)

一.tushare简介 tushare是一个免费,开源的python财经数据接口包.主要实现对股票等金融数据从数据采集、清洗加工到数据存储的过程&#xff0c;能够为金融分析人员提供快速、整洁、和多样的便于分析的数据&#xff0c;为他们在数据获取方面极大地减轻工作量&#xff0c;使他们更…

【PostMan】PostMan可以打开但是窗口一直显示不出来问题

问题 如标题 解决方案&#xff1a; 1&#xff1a;关闭postman 2&#xff1a;打开如下路径 C:UsersUserNameAppDataRoamingPostman 找到一下window 文件删除该文件 说明&#xff1a;UserName 为你自己电脑上用户名称 其他情况的解决方案&#xff1a; https://github.com/postm…

开发避坑3——大鸟 pk Bug(使用postman测试POST接口遇到报错(ErrorMessage:Unauthorization request ......))

使用postman测试POST接口遇到报错&#xff08;ErrorMessage&#xff1a;Unauthorization request …) 不管你是前端、后端、测试还是运维等工程师&#xff0c;学会使用postman测试接口是工作中必不可少的。当我们使用前端页面调用接口发现浏览器报错我们就要排查是前端调用问题…

chatgpt赋能python:Python访问手机存储文件夹:移动设备编程新纪元

Python访问手机存储文件夹&#xff1a;移动设备编程新纪元 在移动设备时代&#xff0c;开发人员必须掌握能够访问手机存储文件夹的技能。Python是一种强大的编程语言&#xff0c;已成为许多应用程序和脚本的首选语言。Python为移动设备编程带来了新的可能性&#xff0c;例如可…

ChatGPT遭多国调查,OpenAI凌晨就安全问题发文,GPT-5要暂缓?

最近&#xff0c;意大利宣布禁用 ChatGPT&#xff0c;因为 OpenAI 违反了意大利相关的隐私规则和数据保护法&#xff0c;出现了用户数据丢失情况&#xff0c;而且未向用户告知。 消息出来后&#xff0c;德国、法国、爱尔兰、西班牙等国的监管部门都表示正在密切关注 ChatGPT 的…

通过AI算法预测彩票

最近工作上比较闲&#xff0c;于是抽时间写了个APP&#xff0c;运用一些AI算法&#xff0c;先排除一些明显不可能的号&#xff0c;然后结合历史数据&#xff0c;分析测算出可能得结果&#xff0c;试运行了大概10期&#xff0c;中了一个三等奖&#xff0c;蓝球概率有明显提高&am…

TOPIK 韩语考试历届考题下载

韩国语能力考试官网 http://www.topik.go.kr/ 历届考试真题下载。

5分钟带你学会MotionLayout 第二篇

1、前言 最近在开发中&#xff0c;同事居然对MontionLayout一知半解&#xff0c;那怎么行&#xff01;百里偷闲写出此文章&#xff0c;一起学习、一起进步。如果写的不好&#xff0c;或者有错误之处&#xff0c;恳请在评论、私信、邮箱指出&#xff0c;万分感谢&#x1f64f; …

重磅:宣布一件大事,大模型与 AIGC 专场来啦

文末有抽奖&#xff01; 6月30日-7月1日&#xff0c;在由稀土掘金开发者社区主办的稀土开发者大会上&#xff0c;邀你与最专业最前沿的嘉宾面对面交流&#xff01;6月30日上午的主会场&#xff0c;北京大学王选计算机研究所教授、CCF 自然语言处理专委会秘书长万小军&#xff0…