分子生成领域的stable diffusion - GEOLDM

一、关于stable diffusion

很多人都知道stable diffusion,stable diffusion的出现改变了机器生成领域,让AI技术第一次无比的接近正常人。大语言模型,AIGC概念于是兴起。基于stable diffusion 大家开发了lora, hyperwork等微调技术,使得我们可以精确的控制生成图片,于是我们可以生成如下一些图片,以假乱真:

​​​​​​​

神奇的stable diffusion模型的架构如下:

stable diffusion模型架构简单理解:首先使用一个编码器,将图片编码到隐式空间的潜向量,然后基于该潜向量实现diffusion model的增噪和去噪过程,生成新的潜向量,然后再使用解码器,解码潜向量,生成新图片。关于stable diffusion的介绍,全网到处都是,感兴趣的可以仔细研究研究。

那么问题来了,在分子生成领域,在药物设计领域,是不是可以有一个stable diffusion 模型?实现真正的可控分子生成?让药物设计、分子设计领域的大语言模型真正的兴起,实现Drug-AIGC?要实现这一点的难点在于:药物分子是具有空间几何特征的(即旋转不变性和空间平移不变性),且不连续稀疏的。而图片更简单,是平面的且连续的。因此,基机器视觉开发的stable diffusion是不能直接使用于分子设计、药物设计等领域的,需要专门开发一个能处理空间几何与稀疏不连续的stable diffusion模型架构。

新发表的GEOLDM 模型实现了这一点。也许从此刻开始,变天了。Drug-AIGC真的要来了。分子设计领域有了stable diffusion模型,那么分子设计领域的lora还远吗?

二、分子生成领域的stable diffusion - GeoLDM

GEOLDM 模型是发表在2023年 ICML(全称:International Conference on Machine Learning)会议上的会刊 <Geometric Latent Diffusion Models for 3D Molecule Generation> 文章。第一作者是斯坦福大学计算机系的Minkai Xu。文章链接为:https://arxiv.org/pdf/2305.01140.pdf

GEOLDM模型可以生成3D的分子,在有条件或者无条件下都可以生成。

GEOLDM的全称是Geometric Latent Diffusion Models,几何隐式扩散模型。GEOLDM 是分子几何领域的第一个隐式扩散模型(简称:DM),由将结构编码为连续隐式向量的自动编码器和在隐式空间中运行的扩散模型组成。 文章的关键创新在于,对 3D 分子几何进行建模,通过构建具有不变标量和等变张量的点结构隐式空间来捕获其关键的旋转平移等变约束。

在GEOLDM模型中,分子中原子坐标和特征,即x,h会,被编码器编码成隐式向量,即z_x和z_h。然后在隐式空间内,对z_x和z_h进行T步的加噪过程,使用深度学习网络预测噪音,反向去噪,生成隐式向量。解码器根据去噪后的隐式向量生成分子。

注意,GEOLDM的扩散过程是操作在隐式向量空间的。这一点与之前的分子生成模型,EDM,Difflinker,Targetdiff等不同。之前的分子生成模型的扩散过程是直接操作在原子空间的,即添加噪音在坐标x和原子特征h上。而GEOLDM是将扩散过程操作在坐标x和原子特征h,生成的嵌入隐空间z上。这一点完全与机器视觉中的stable diffusion对齐了。

训练GEOLDM模型的伪代码:

首先,需要按照常规的变分自动编码器一样,在没有加噪和去噪的扩散过程下,先训练变分自动编码器,即First stage。然后,固定自动变分编码器,加入扩散的加噪和去噪过程,训练模型学习去噪。所以,可以简单的理解GEOLDM模型由编码器,扩散去噪,解码器,三个AI网络组成。

使用GEOLDM模型生成分子的伪代码如下:

三、GeoLDM模型的性能

作者在QM9和DRUG数据上进行了测试,考察了分子生成的质量(有效性,唯一性)。作者对每个模型都进行了三次分子生成,每次生成1w个分子。测试结果如下:

与之前的方法相比,同时具有不变变量和等变变量的潜在空间使GEOLDM在大分子生成的有效性方面实现了高达7%的改进。

stable diffusion模型厉害之处,主要是其非常强大的可改造能力,最简单的,就是条件控制生成。这里作者做了尝试。作者尝试让GEOLDM模型生成HOMO等更低的分子,结果发现,GEOLDM确实要好于我们之前常用的EDM模型。如下图:

另一方面,在条件控制生成中,GEOLDM,可以对生成的条件的程度进行控制。作者以生成极化的分子为例,使用了不同的极化控制参数,如下图:

四、总结

整体感觉GEOLDM这个模型非常好模拟了stable diffusion模型的结构,将扩散过程的加噪去噪过程操作在隐式向量空间内。大大降低了,在分子生成领域的计算成本。同时,因为在潜向量空间内,也打开了分子生成领域的优化可能,我们可以CLIP, LORA, Controlnet 等技术,微调模型,实现精确控制分子生成。

看来Drug-AIGC的日子不远了,真的不远了。距离作者正式发表GEOLDM有几个月了,距离作者开始在GitHub上传代码有10个月了。我们将很快看到很多的相关文章出现。老了,脑子跟不上了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/214803.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JDK 9 模块化系统 (Module System) 和 多版本兼容 Jar (Multi-Release Jar)

博文目录 文章目录 Module System原因JDK 模块化模块描述文件关键字 启用模块化测试结论 Multi-Release jar (MRJAR)原因原理结论用 IDEA 创建多版本兼容 Jar项目结构pom.xml测试 Module System 原因 Java 9引入了模块化系统的主要原因是为了解决Java平台面临的复杂性和可维…

从电商API接口谈电商ERP系统介绍

部分网友反馈小红书APP出现闪退问题。对此&#xff0c;小红书客服微博发文称&#xff0c;如遇到小红书APP无法启动的情况&#xff0c;用户可前往App Store下载最新版本&#xff08;详情可见&#xff1a; &#xff09;小红书闪退崩溃出bug&#xff0c;IT人员要背故障吗&#xff…

【计算机网络实验】实验三 IP网络规划与路由设计(头歌)

目录 一、知识点 二、实验任务 三、头歌测试 一、知识点 IP子网掩码的两种表示方法 32位IP子网掩码&#xff0c;特点是从高位开始连续都是1&#xff0c;后面是连续的0&#xff0c;它有以下两种表示方法&#xff1a; 传统表示法&#xff0c;如&#xff1a;255.255.255.0IP前…

windows下oracle透明网关安装

上一次说了如何在Linux下安装oracle到sqlserver之间的透明网关&#xff0c;现在给大家继续介绍如何在windows下安装。 本文实验环境&#xff1a; 数据库类型 数据库版本 IP oracle 11204 192.168.238.122 MSSQL MSSQL 2008 192.168.239.40 一、oracle服务器配置ODBC源…

linux软件管理

八、软件管理 RPM相关命令 8.1 RPM包管理 8.1.1 RPM概述 RPM Package Manager (原Red Hat Package Manager&#xff0c;现在是一个递归缩写&#xff09; ​ 由Red Hat公司提出&#xff0c;被众多 Linux 发行版所采用也称二进制( binary code) 无需编译,可以直接使用 ​ 无法设…

重磅!2023中国高校计算机大赛-人工智能创意赛结果出炉

目录 中国计算机大赛-人工智能创意赛现场C4-AI大赛颁奖及留影800个AI应用&#xff1f;这届大学生真能“搞事情”AI原生时代&#xff0c;百度要再培养500大模型人才 中国计算机大赛-人工智能创意赛现场 12月8日&#xff0c;杭州&#xff0c;一位“白发老人”突然摔倒在地&#…

Verilog学习 | 用initial语句写出固定的波形

initial beginia 0;ib 1;clk 0;#10ia 1; #20ib 0;#20ia 0; endalways #5 clk ~clk; 或者 initial clk 0;initial beginia 0;#10ia 1; #40ia 0; endinitial beginib 1;#30 ib 0; endalways #5 clk ~clk;

深入探索C语言中的二叉树:数据结构之旅

引言 在计算机科学领域&#xff0c;数据结构是基础中的基础。在众多数据结构中&#xff0c;二叉树因其在各种操作中的高效性而脱颖而出。二叉树是一种特殊的树形结构&#xff0c;每个节点最多有两个子节点&#xff1a;左子节点和右子节点。这种结构使得搜索、插入、删除等操作…

強強联手!M88明陞宣布与G2 电子竞技俱乐部成为官方合作伙伴!

M88明陞作为亚洲领先的在线游戏平台&#xff0c;正式宣布与G2电子竞技俱乐部建立具有突破性意义的官方合作伙伴关系&#xff0c;G2电子竞技俱乐部是全球领先的电子竞技品牌之一。作为官方合作伙伴关系&#xff0c;双方将合作开展一系列活动。 M88明陞将在G2 电子竞技俱乐部追求…

推荐4个优秀的 Python 时间序列分析库

时间序列分析在金融和医疗保健等领域至关重要&#xff0c;在这些领域&#xff0c;理解随时间变化的数据模式至关重要。在本文中&#xff0c;我们将介绍四个主要的Python库——statmodels、tslearn、tssearch和tsfresh——每个库都针对时间序列分析的不同方面进行了定制。这些库…

初识人工智能,一文读懂贝叶斯优化的知识文集(6)

&#x1f3c6;作者简介&#xff0c;普修罗双战士&#xff0c;一直追求不断学习和成长&#xff0c;在技术的道路上持续探索和实践。 &#x1f3c6;多年互联网行业从业经验&#xff0c;历任核心研发工程师&#xff0c;项目技术负责人。 &#x1f389;欢迎 &#x1f44d;点赞✍评论…

IDEA中配置Git

Git 在IDEA中使用Git1 在IDEA中配置Git2 在IDEA中使用Git2.1在IDEA中创建工程并将工程添加至Git2.2 将文件添加到暂存区2.3 提交文件2.4 将代码推送到远程仓库2.5 从远程仓库克隆工程到本地2.6 从远程拉取代码2.7 版本对比2.8 创建分支2.9 切换分支2.10 分支合并 3 使用IDEA进行…

【HarmonyOS开发】详解常见容器的使用

声明式UI提供了以下8种常见布局&#xff0c;开发者可根据实际应用场景选择合适的布局进行页面开发。 布局 应用场景 线性布局&#xff08;Row、Column&#xff09; 如果布局内子元素超过1个&#xff0c;且能够以某种方式线性排列时优先考虑此布局。 层叠布局&#xff08;St…

Windows系统Java开发环境安装

总结一下Java软件开发工程师常见的环境的安装&#xff0c;仅限Windows环境。 以下下载链接均来自官网&#xff0c;网络条件自己克服。 目录 1. JDKJDK Oracle 官网下载地址配置系统环境变量 2. Mavenapache maven 官网地址本地仓库和中央仓库配置配置系统环境变量 3. GitGit 官…

Mybatis之核心配置文件详解、默认类型别名、Mybatis获取参数值的两种方式

学习的最大理由是想摆脱平庸&#xff0c;早一天就多一份人生的精彩&#xff1b;迟一天就多一天平庸的困扰。各位小伙伴&#xff0c;如果您&#xff1a; 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持&#xff0c;想组团高效学习… 想写博客但无从下手&#xff0c;急需…

Xilinx FPGA——ISE时序约束“建立时间不满足”问题解决记录

一、现象 最近使用赛灵思的FPGA设计项目时&#xff0c;出现时序约束失效问题。 点进去发现如下&#xff1a; 一个始终约束没有生效&#xff0c;有多处报错。 二、原因 出现这个问题的原因是&#xff0c;建立时间不满足。 时序违例的主要原因是建立时间和保持时间不满足要求&a…

【JAVA】黑马MybatisPlus 学习笔记【一】

1.快速入门 为了方便测试&#xff0c;我们先创建一个新的项目&#xff0c;并准备一些基础数据。 1.1 环境配置 导入项目 注意配置一下项目的JDK版本为JDK11。首先点击项目结构设置&#xff1a; 导入两张表&#xff0c;在课前资料中已经提供了SQL文件&#xff1a; 最后&am…

2023五岳杯量子计算挑战赛数学建模思路+代码+模型+论文

目录 计算力网络&#xff08;CPN&#xff09;是一种新型的信息基础设施&#xff0c;完整论文代码见文末 问题描述 2.1 问题1 2.2 问题2 2.3 问题3 问题1的解答过程&#xff1a; 问题3的解答过程&#xff1a; 决策优化应用场景&#xff1a;人工智能模型超参数调优 背景信…