Cephalo:专门用于仿生设计的多模态视觉大型语言模型

实时了解业内动态,论文是最好的桥梁,专栏精选论文重点解读热点论文,围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。

材料科学侧重于研究和开发具有特定性能和应用的材料。该领域的研究人员旨在了解材料的结构、性能和性能,以创新和改进现有技术,并为各种应用创造新材料。该学科结合了化学、物理和工程原理,以应对挑战并改进航空航天、汽车、电子和医疗保健中使用的材料。

材料科学面临的一个重大挑战是整合来自科学文献的大量视觉和文本数据,传统方法通常无法有效地组合这些数据类型,从而限制了生成全面见解和解决方案的能力。难点在于从图像中提取相关信息并将其与文本数据相关联,这对于推进该领域的研究和应用至关重要。

Cephalo

麻省理工学院(MIT)的研究人员推出了Cephalo,这是一系列专为材料科学应用设计的多模态视觉语言模型(V-LLMs)。Cephalo旨在弥合视觉感知和语言理解之间的差距,以分析和设计仿生材料。

Cephalo 利用复杂的算法从科学文献中检测和分离图像及其相应的文本描述。它使用视觉编码器和自回归转换器集成这些数据,使模型能够解释复杂的视觉场景,生成准确的语言描述,并有效地回答查询。

该模型使用来自数千篇科学论文和以科学为重点的维基百科页面的集成图像和文本数据进行训练。它展示了其处理复杂数据和提供有见地的分析的能力。

如上图所示,Cephalo推出的模型在4B和12B之间,基座模型有Phi-3和Idefics-2,分别采用GPT-40和Idefics-2针对原始数据进行提炼。当然本项目还利用层合并技术形成更大规模的大模型以及尝试采用MoE的方式进行实验。紧接着来看看本次项目的成果,在各个领域的影响力还是巨大的。

特色1:语料构成

图像文本数据集的Token记长度记数直方图,a代表来至示来自维基百科,b代表来之论文语料库,原始说明。c-e显示了使用不同视觉文本模型处理的结果。c显示了Idefics-2处理维基百科后的图像描述的Token长度。面板d和e显示了使用Idefics-2和GPT-4o处理的论文语料库数据集的结果。

GPT-4o数据集通常会产生更长的描述,对内容的详细分析让它提供了增强的推理能力和对图像内容的细致解释的能力。所有Token均使用 Phi-3-Vision标记器(tokenizer)完成。

上图为从wiki和论文中获取图像分辨率的直方统计图。相对而言,论文的图片质量普遍高一点。

为了开发一种强大的数据集生成方法,研究人员使用PyMuPDF中的 fitz 库从0到1实现全新的算法。该过程首先识别PDF中每页的所有图像。随后找到以“Fig”或类似标识符开头的文本块。然后该算法将这些文本块与位于其下方的最近图像进行匹配。

匹配过程通过几个清理步骤进行改进,包括处理不同的图像颜色图和格式,以及删除特定符号,例如期刊添加到文档中的符号。一些 PDF 产生了分割的图形,需要额外的处理才能确保数据集的完整性。

通过与通用V-LLM(视觉大模型)共享图像和原始标题,并让模型开发图像的全面描述,可以开发用于训练的图像文本对。研究人员同时使用开源 V-LLM、Idefics2和GPT-4o来完成针对图的信息提炼。作为替代方案,我们还探索了使用纯文本的 LLM(例如,Phi-3-Bioinspired,它提供了另一种选择。具有视觉功能的 LLM 来处理和提炼数据集通常更好,并提供更详细和合理的描述。

上图中的数据集的字段既包含原始的Caption,也有经过vLLM综合内容生成的QA字段,更加丰满了(例如下图的a重新生成b的描述。)

特色2:层合并

混合模型Cephalo-Idefics-2-vision-10b-alpha通过有效地将特定领域的专业知识与一般的对话能力相结合,表现出卓越的性能。这是通过将lamm-mit/Cephalo-Idefics-2-vision-8b-beta模型的解码器的前32层与聊天/指令调整的HuggingFaceM4/idefics2-8b-chatty模型的最后N层合并。在针对合并模型的最后N层进行微调。若N=8,则产生10b的模型。

  • a显示了使用低秩自适应对第一个模型进行微调。

  • b讲述了合并的过程,这个过程使用两个模型,模型A和模型B,来构建更大的模型。模型A是一个领域特定的微调模型,模型B是一个通用的聊天/指令调整模型。研究人员选择一组层(来自模型 A 的所有层,模型 B 的深层)。这遵循使用领域特定模型的早期层和通用模型的后期层的策略。然后将选定的层合并为一个新的组合模型,该模型经过微调。

  • c新模型的微调是通过冻结源模型A的所有层并对源自模型B的层进行全面微调来完成的。生成的模型可以实现图像字幕、视觉问答和多模态内容生成等任务。

给它一张鸡蛋的图,让它描述,同时问它要是摔了会如何。从物理的角度还是回答得有模有样的!

当然本次的研究还顺手训练了基于原来模型的MoE,3*4B的LLM。

Cephalo可以生成精确的图像到文本和文本到图像的翻译,提供高质量、上下文相关的训练数据。此功能显著增强了人类 AI和多智能体AI框架内的理解和交互。研究人员已经在各种用例中测试了Cephalo,包括分析断裂力学、蛋白质结构和仿生设计,展示了其多功能性和有效性。

在性能和结果方面,Cephalo的模型范围从 4B到 12B不等,可适应不同的计算需求和应用。这些模型在各种用例中进行了测试,例如生物材料、断裂和工程分析以及仿生设计。例如,Cephalo展示了其解释复杂视觉场景和生成精确语言描述的能力,增强了对失效和断裂等物质现象的理解。这种视觉和语言的整合可以进行更准确和详细的分析,支持材料科学创新解决方案的开发。

此外,这些模型在特定应用中显示出显着改进。例如,Cephalo可以在分析生物材料时生成微观结构的详细描述,这对于理解材料特性和性能至关重要。在断裂分析中,该模型准确描述裂纹扩展并提出提高材料韧性的方法的能力尤为重要。这些结果凸显了Cephalo在推进材料研究和为现实世界挑战提供实用解决方案方面的潜力。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/359416.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是响应式编程

我们知道,当系统面对大流量、高并发的访问请求时,就可能会出现一系列性能问题,导致服务丧失了即时的响应性。如何时刻确保系统具有应对请求压力的能力,是架构设计的核心问题之一。 经典的服务隔离、限流、降级以及熔断等机制能够在…

2024全国各地高考录取分数线一览表(含一本、二本、专科)

2024年高考录取分数线陆续公布,上大学网(www.sdaxue.com)为大家整理全国31个省市高考录取分数线汇总,包括本科批、专科批和特殊类招生控制分数线汇总,来看看你的省份多少分能上大学吧。 一、2024年全国高考录取线一览表 1、宁夏 一本线&…

一文搞懂Linux命令行下载OneDrive分享文件

一文搞懂Linux命令行下载OneDrive分享文件 什么问题? 因为OneDrive有些坑,无法从分享界面获取真实下载链接,比如下面这个链接: https://connecthkuhk-my.sharepoint.com/:f:/g/personal/jhyang13_connect_hku_hk/EsEgHtGOWbJIm…

Golang逃逸分析

在Go语言中,逃逸分析(Escape Analysis)是一种编译器优化技术,用于确定变量是应该分配在堆上还是在栈上。这对程序的性能有显著的影响,因为栈上资源的分配速度和释放速度要比堆上快得多,同时堆上的内存管理也更加简单。 基本概念 …

C++并发之协程实例(四)(通过迭代器访问生成器序列)

目录 1 协程2 实例3 运行 1 协程 协程(Coroutines)是一个可以挂起执行以便稍后恢复的函数。协程是无堆栈的:它们通过返回到调用方来暂停执行,并且恢复执行所需的数据与堆栈分开存储。这允许异步执行的顺序代码(例如,在没有显式回调…

零代码搭建AI应用-文心智能体的设计与实现

本教程旨在帮助你开发一个结合语音识别和信息查询技术的智能应用,为用户提供登山小技巧和心得体会,满足用户在户外运动中的需求。通过设计不同角色和场景,可以满足用户在不同生活领域的需求,例如在家庭、社交、职场等场景下提供不…

什么洗地机值得推荐?洗地机选购攻略,热门洗地机推荐

在家庭清洁领域,洗地机已成为越来越多家庭的首选设备。它不仅能轻松应对各种材质的地面,还能有效去除顽固污渍,使家居环境更加整洁。然而,面对市场上众多洗地机品牌,许多消费者都会产生“什么洗地机值得推荐”的疑问。…

算法常见手写代码

1.NMS def py_cpu_nms(dets, thresh):"""Pure Python NMS baseline."""#x1、y1、x2、y2、以及score赋值x1 dets[:, 0]y1 dets[:, 1]x2 dets[:, 2]y2 dets[:, 3]scores dets[:, 4]#每一个检测框的面积areas (x2 - x1 1) * (y2 - y1 1)#按…

2024年数据、自动化与智能计算国际学术会议(ICDAIC 2024)

全称:2024年数据、自动化与智能计算国际学术会议(ICDAIC 2024) 会议网址:http://www.icdaic.com 会议地点: 厦门 投稿邮箱:icdaicsub-conf.com投稿标题:ArticleTEL。投稿时请在邮件正文备注:学生投稿&#…

Linux安装minio及mc客户端(包含ARM处理器架构)

🍓 简介:java系列技术分享(👉持续更新中…🔥) 🍓 初衷:一起学习、一起进步、坚持不懈 🍓 如果文章内容有误与您的想法不一致,欢迎大家在评论区指正🙏 🍓 希望这篇文章对你有所帮助,欢…

Ubuntu 18.04 安装低延时内核

下面记录在在Ubuntu 18.04系统下安装低延时内核的流程: Ubuntu 内核信息 ll /boot其中initrd.img为根文件系统,System.map为内核符号表(将内核代码段中的地址映射到对应的函数名或者全局变量名),vmlinuz为内核镜像。…

论文翻译 | Active Retrieval Augmented Generation 主动检索增强生成

Zhengbao Jiang1∗ Frank F. Xu1∗ Luyu Gao1∗ Zhiqing Sun1∗ Qian Liu2 Jane Dwivedi-Yu3 Yiming Yang1 Jamie Callan1 Graham Neubig1 卡内基梅隆大学语言技术研究所;海洋人工智能研究室;FAIR, Meta EMNLP 2023 main (Proceedings of t…

低成本创业新篇章:上门回收小程序的崛起与挑战

在当今这个快速变化的时代,低成本创业项目成为了许多创业者的首选。其中,上门回收小程序以其独特的商业模式和市场需求,成为了创业市场中的一股新势力。本文将深入探讨上门回收小程序作为低成本创业项目的崛起之路以及面临的挑战。 一、上门回…

【R语言】地理探测器模拟及分析(Geographical detector)

地理探测器模拟及分析 1. 写在前面2. R语言实现2.1 数据导入2.2 确定数据离散化的最优方法与最优分类2.3 分异及因子探测器(factor detector)2.4 生态探测器(ecological detector)2.5 交互因子探测器(interaction dete…

HTML(14)——结构伪类选择器和伪元素选择器

结构伪类选择器 作用&#xff1a; 根据元素的结构关系查找元素 选择器说明E:first-child查找第一个E元素E:last-child查找最后一个E元素E:nth-child(N)查找第N个E元素(第一个元素N值为1) 例如&#xff1a;查找第一个li标签&#xff0c;将背景改为绿色 <style> li:fir…

超越招聘技术人才目标的最佳技术招聘统计数据

研究发现&#xff0c;难以找到的人才比以往任何时候都更难找到&#xff1a;根据新人才委员会招聘调查报告&#xff1a;2024年难以找到的人才的战略和战略&#xff0c;60%的受访者表示&#xff0c;熟练人才的招聘时间比一年前长。调查进一步揭示了以下关于招聘技术的关键事实&am…

Git 常用命令,一文全搞懂

注意&#xff1a;每一次切换分支的时候&#xff0c;本地代码都会自动跟随改变&#xff0c;不需要重新pull,除非有人更新了代码 git remote add origin 地址 连接远程仓库 git clone 地址 克隆项目到本地 git init 更新本地隐藏文件初始化仓库 git add . 代…

Java--Data类

1.Data类 java.util.Date.表示指定的时间信息&#xff0c;不支持国际化 构造方法 new Date()&#xff1a;当前系统日期和时间 new Date(long)&#xff1a;给定日期和时间 主要方法&#xff1a; after(Date):判断当前日期对象是否在给定日期对象之后 before(Date):判断当前日期…

基础购物车(Javascript)

使用Javascript写一个基础购物车&#xff0c;其中包含商品数量加加减减&#xff0c;下面的总价和总数量跟着商品数量变动&#xff0c;还可以自己添加需要的商品。 基础购物车的结构样式如下&#xff1a; HTML代码&#xff1a; <body><table border"1px" c…

LeetCode26. 删除有序数组中的重复项题解

LeetCode26. 删除有序数组中的重复项题解 题目链接&#xff1a; https://leetcode.cn/problems/remove-duplicates-from-sorted-array 题目描述&#xff1a; 给你一个 非严格递增排列 的数组 nums &#xff0c;请你 原地 删除重复出现的元素&#xff0c;使每个元素 只出现一…