几何扩散模型用于分子构象生成ICLR2022

从分子graph预测分子构象是药物发现的基本问题,生成模型在该领域取得进展。受扩散模型启发,作者提出GeoDiff用于分子构象预测。GeoDiff将每个原子视为一个粒子,并学习扩散过程(从噪声分布转为稳定构象)。

来自:GEODIFF: A GEOMETRIC DIFFUSION MODEL FOR MOLECULAR CONFORMATION GENERATION

目录

  • 背景概述
  • 前置内容
  • GEODIFF
    • 定义
    • 等变逆向生成过程
    • 训练提升
    • 采样
  • 实验

背景概述

图表示学习在分子建模的各种任务中取得了巨大的成功,从性质预测到分子生成,通常,分子表示为原子与键构成的图。尽管图的学习在各种应用中都很有效,但对于分子来说,更内在和信息更丰富的表示是3D几何,也称为构象(conformation),其中原子被表示为笛卡尔坐标。3D结构决定了分子的物理性质,因此在许多应用中发挥着关键作用。然而,如何预测稳定的分子构象仍然是一个具有挑战性的问题。基于分子动力学或马尔可夫链蒙特卡罗的传统方法计算成本非常高,特别是对于大分子。

机器学习方法取得了重大进展,特别是深度生成模型。例如用变分自编码器和基于流的模型预测原子距离。由于分子构象是旋转-平移不变的,后续的方法通过利用中间几何变量(如原子距离、键和扭转角)来避免直接建模原子坐标。


关于分子构象旋转-平移不变:对于一个分子的构象,我们可以将整个分子绕任意轴旋转,并且在保持分子的几何结构不变的情况下,将分子平移任意距离,得到一个新的构象。但是,这个新的构象与原始构象是等价的,因为它们具有相同的化学性质。

个人理解:研究构象的意义在于,笛卡尔坐标反映了分子的几何表达,但是这种表达应该确保旋转-平移不变。


然而,由于目前的方法都试图间接地对中间几何变量建模,导致它们在训练或推理过程中都有固有的局限性(比如SchNet)。因此,理想的解决方案仍然是直接建模原子坐标,同时考虑旋转-平移不变性(类比Uni-Mol)。

GEODIFF的一个独特优势是它直接使用原子坐标建模,完全绕过了训练和推断的中间元素使用。该设计有几个关键的优点:

  • 首先,模型可以自然地进行端到端训练,而不涉及任何复杂的技术。
  • 此外,与从键长或角度求解几何形状不同,GEODIFF避免了累积任何中间误差,因此可以得到更准确的预测结构。

前置内容

标记:将一个有 n n n个原子的分子表示为一个无向图 G = < V , E > G=<V,E> G=<V,E>,其中 V = { v i } i = 1 n , E = { e i j ∣ ( i , j ) ⊂ ∣ V ∣ × ∣ V ∣ } V=\left\{v_{i}\right\}_{i=1}^{n},E=\left\{e_{ij}|(i,j)\subset|V|\times|V|\right\} V={vi}i=1n,E={eij(i,j)V×V},每个节点描述原子属性,比如化学元素类型,每条边描述原子和原子之间的连接关系,并标注了其化学类型(无连接的边类型为virtual)。对于几何, V V V中的每个原子被坐标向量 c ∈ R 3 c\in R^{3} cR3嵌入到三维空间,位置的全部集合(即构象)可以表示为一个矩阵 C = [ c 1 , . . . , c n ] ∈ R n × 3 C=[c_{1},...,c_{n}]\in R^{n\times 3} C=[c1,...,cn]Rn×3

问题定义:分子构象生成任务是一个条件生成问题,给定一个图 G G G生成稳定构象 C C C。给定多个图,对于每个图 G G G,根据其构象 C C C作为来自底层玻尔兹曼分布的iid样本,目标是学习一个生成模型 p θ ( C ∣ G ) p_{\theta}(C|G) pθ(CG),它很容易从中生成样本,并近似玻尔兹曼函数。

等变性:等变性对3D建模的泛化能力至关重要,作者考虑了SE(3)群,即3D空间中旋转,平移的群。这需要不受旋转和平移变换影响的似然估计。


等变和不变的关系:在数学中,等变通常指的是某个变换(例如旋转、平移等)对某个数学对象(例如向量、函数等)不产生影响,即这个变换下,该对象保持不变。而不变则表示该对象在所有变换下都保持不变。

等变和不变之间的关系可以理解为不变是等变的一种特殊情况。如果某个对象在所有变换下都保持不变,那么它也一定在某个特定的变换下保持不变,即等变。但如果某个对象只在某些变换下保持不变,那么它就不是不变的,只能说是等变的。

CNN与等变和不变:在卷积神经网络(CNN)中,等变和不变通常指的是对输入数据的变换对应地影响着卷积层的输出。

具体来说,CNN中的卷积层使用卷积核对输入数据进行卷积运算,得到一组特征映射(feature map)。卷积层中的每个神经元只与输入数据中的一小部分相连,这个小部分通常称为感受野(receptive field)。卷积核的大小与神经元的感受野相同,这样就保证了卷积层的每个神经元只关注输入数据中的一个小区域。

在CNN中,卷积层的等变性和不变性通常与卷积核的参数共享有关。参数共享是指,卷积层使用同一组卷积核对输入数据的不同区域进行卷积运算。这种参数共享的方式导致了CNN具有一定的等变性,即对于输入数据中的某个区域,卷积层会得到一个特征映射,但如果输入数据的另一个区域与前一个区域具有相同的特征,那么卷积层也会得到一个类似的特征映射。这种等变性可以让CNN对输入数据的局部变化做出响应。

然而,CNN中的池化层通常是不变的,因为它对输入数据进行降采样,使得输入数据的空间分辨率变小,这种降采样操作会导致输入数据的某些局部变化被忽略,从而失去了一定的等变性。因此,通常建议在CNN中尽可能减少池化层的使用,或者使用其他的降采样方式来保持更多的等变性。


GEODIFF

定义

C 0 C^{0} C0表示构象的Ground Truth, C t ∣ t = 1 , . . , T C^{t}|t=1,..,T Ctt=1,..,T为具有相同维数的隐变量序列,其中, t t t为扩散步骤的index。扩散概率模型可以被描述为具有两个过程的隐变量模型:正向扩散和反向生成。扩散过程逐步向数据 C 0 C^{0} C0注入噪声,而生成过程学习通过逐步消除噪声来恢复扩散过程以恢复GT,比如图1。
fig1

  • 图1:GEODIFF的扩散和反向过程演示。对于扩散过程,来自固定后验分布 q ( C t ∣ C t − 1 ) q(C^{t}|C^{t-1}) q(CtCt1)的噪声逐渐加入直到构象被破坏。对称地,对于生成过程,初始状态 C T C^{T} CT从标准高斯分布中采样,并通过马尔可夫核 p θ ( C t − 1 ∣ G , C t ) p_{\theta}(C^{t-1}|G,C^{t}) pθ(Ct1G,Ct)逐步恢复构象。

扩散过程:根据物理学的见解,将粒子 C C C建模为一个不断进化的热力学系统。随着时间的推移,稳定构象 C 0 C^{0} C0将逐渐扩散到混沌态 C t C^{t} Ct,并在 T T T次迭代后最终收敛为白噪声分布。在扩散模型中,正向过程被定义为一个固定的(而不是可训练的)后验分布 q ( C 1 : T ∣ C 0 ) q(C^{1:T} |C^{0}) q(C1:TC0)。具体地说,扩散过程定义为一个根据固定方差schedule ( β 1 , . . . , β T ) (\beta_{1},...,\beta_{T}) (β1,...,βT)的马尔可夫链: q ( C 1 : T ∣ C 0 ) = ∏ t = 1 T q ( C t ∣ C t − 1 ) , q ( C t ∣ C t − 1 ) = N ( C t ; 1 − β t C t − 1 , β t I ) q(C^{1:T}|C^{0})=\prod_{t=1}^{T}q(C^{t}|C^{t-1}),\\q(C^{t}|C^{t-1})=N(C^{t};\sqrt{1-\beta_{t}}C^{t-1},\beta_{t}I) q(C1:TC0)=t=1Tq(CtCt1),q(CtCt1)=N(Ct;1βt Ct1,βtI) α t = 1 − β t \alpha_{t}=1-\beta_{t} αt=1βt,并且 α ‾ t = ∏ s = 1 t α s \overline{\alpha}_{t}=\prod^{t}_{s=1}\alpha_{s} αt=s=1tαs,正向过程的一个特殊性质是,任意时间步 t t t q ( C t ∣ C 0 ) = N ( C t ; α ‾ t C 0 , ( 1 − α ‾ t ) I ) q(C^{t}|C^{0})=N(C^{t};\sqrt{\overline{\alpha}_{t}}C^{0},(1-\overline{\alpha}_{t})I) q(CtC0)=N(Ct;αt C0,(1αt)I)。这表明,当 T T T足够大时,整个正向过程将 C 0 C^{0} C0转化为白化的各向同性高斯分布,因此将 p ( C T ) p(C^{T}) p(CT)设置为标准高斯分布是自然的。

逆向过程:目标是学习从白噪声 C T C^{T} CT中恢复构象 C 0 C^{0} C0(基于给定的分子图 G G G)。这个生成过程是上述扩散过程的反向,从有噪声的粒子 C T ∼ p ( C T ) C^{T}\sim p(C^{T}) CTp(CT)开始。这种反向过程描述为具有可学习过渡的条件马尔可夫链: p θ ( C 0 : T − 1 ∣ G , C T ) = ∏ t = 1 T p θ ( C t − 1 ∣ G , C t ) , p θ ( C t − 1 ∣ G , C t ) = N ( C t − 1 ; μ θ ( G , C t , t ) , σ t 2 I ) p_{\theta}(C^{0:T-1}|G,C^{T})=\prod_{t=1}^{T}p_{\theta}(C^{t-1}|G,C^{t}),\\p_{\theta}(C^{t-1}|G,C^{t})=N(C^{t-1};\mu_{\theta}(G,C^{t},t),\sigma_{t}^{2}I) pθ(C0:T1G,CT)=t=1Tpθ(Ct1G,Ct),pθ(Ct1G,Ct)=N(Ct1;μθ(G,Ct,t),σt2I)其中, μ θ \mu_{\theta} μθ为参数化神经网络,用于估计均值, σ t \sigma_{t} σt为user定义的方差。初始分布 p ( C T ) p(C^{T}) p(CT)设为标准高斯分布。给定一个图 G G G,首先从 p ( C T ) p(C^{T}) p(CT)中绘制混沌粒子 C T C^{T} CT来生成其3D结构。然后通过反向马尔可夫核 p θ ( C t − 1 ∣ G , C t ) p_{\theta}(C^{t-1}|G,C^{t}) pθ(Ct1G,Ct)进行迭代优化。

边际似然可以由 p θ ( C 0 ∣ G ) = ∫ p ( C T ) p θ ( C 0 : T − 1 ∣ G , C T ) d C 1 : T p_{\theta}(C^{0}|G)=\int p(C^{T})p_{\theta}(C^{0:T-1}|G,C^{T})dC^{1:T} pθ(C0G)=p(CT)pθ(C0:T1G,CT)dC1:T得出。

等变逆向生成过程

作者考虑构建对旋转和平移不变的概率密度函数 p θ ( C 0 ) p_{\theta}(C^{0}) pθ(C0)。直观地说,这需要不受平移和旋转影响的似然。设 T g T_{g} Tg为群元素 g ∈ S E ( 3 ) g\in SE(3) gSE(3)的旋转-平移的变换,则有:

  • 命题1:令 p ( x T ) p(x_{T}) p(xT)为一个SE(3)-不变的密度函数,比如 p ( x T ) = p ( T g ( x T ) ) p(x_{T})=p(T_{g}(x_{T})) p(xT)=p(Tg(xT))。如果马尔可夫变换 p ( x t − 1 ∣ x t ) p(x_{t-1}|x_{t}) p(xt1xt)为SE(3)-等变,比如 p ( x t − 1 ∣ x t ) = p ( T g ( x t − 1 ) ∣ T g ( x t ) ) p(x_{t-1}|x_{t})=p(T_{g}(x_{t-1})|T_{g}(x_{t})) p(xt1xt)=p(Tg(xt1)Tg(xt)),然后我们有密度 p θ ( x 0 ) = ∫ p ( x T ) p θ ( x 0 : T − 1 ∣ x T ) d x 1 : T p_{\theta}(x_{0})=\int p(x_{T})p_{\theta}(x_{0:T-1}|x_{T})dx_{1:T} pθ(x0)=p(xT)pθ(x0:T1xT)dx1:T也是SE(3)-不变的。

这个命题表明,从不变初始密度函数 p ( C T ) p(C^{T}) p(CT)开始沿等变高斯马尔可夫核 p θ ( C t − 1 ∣ G , C t ) p_{\theta}(C^{t-1}|G,C^{t}) pθ(Ct1G,Ct)可以得到不变密度 p θ ( C 0 ) p_{\theta}(C^{0}) pθ(C0)。现在,可以基于去噪扩散框架提供了一个GEODIFF的实现。

不变初始密度函数 p ( C T ) p(C^{T}) p(CT):首先介绍不变分布 p ( C T ) p(C^{T}) p(CT),它将用于等变马尔可夫链。定义 p ( C T ) p(C^{T}) p(CT)为CoM-free standard density ρ ^ ( C ) \widehat{\rho}(C) ρ (C)。通过考虑CoM-free系统, ρ ^ ( C ) \widehat{\rho}(C) ρ (C)被构造为旋转-平移不变密度函数。

等变马尔可夫核 p θ ( C t − 1 ∣ G , C t ) p_{\theta}(C^{t-1}|G,C^{t}) pθ(Ct1G,Ct):与先验密度相似,作者也考虑将所有中间结构 C t C^{t} Ct设为CoM-free系统。具体来说,给定均值 μ θ ( G , C t , t ) \mu_{\theta}(G,C^{t},t) μθ(G,Ct,t)和方差 σ t \sigma_{t} σt C t − 1 C^{t-1} Ct1的似然被计算为 ρ ^ ( C t − 1 − μ θ ( G , C t , t ) σ t ) \widehat{\rho}(\frac{C^{t-1}-\mu_{\theta}(G,C^{t},t)}{\sigma_{t}}) ρ (σtCt1μθ(G,Ct,t))。CoM-free高斯函数保证了马尔可夫核的平移不变性。因此,为了实现命题1中定义的等变性质,作者将重点放在旋转等变上。

总的来说,关键的要求保证均值 μ θ ( G , C t , t ) \mu_{\theta}(G,C^{t},t) μθ(G,Ct,t)为旋转等变。考虑参数化 μ θ \mu_{\theta} μθ如下: μ θ ( C t , t ) = 1 α t ( C t − β t 1 − α ‾ t ϵ θ ( G , C t , t ) ) \mu_{\theta}(C^{t},t)=\frac{1}{\sqrt{\alpha_{t}}}(C^{t}-\frac{\beta_{t}}{\sqrt{1-\overline{\alpha}}_{t}}\epsilon_{\theta}(G,C^{t},t)) μθ(Ct,t)=αt 1(Ct1α tβtϵθ(G,Ct,t))其中, ϵ θ \epsilon_{\theta} ϵθ为神经网络。直观地, ϵ θ \epsilon_{\theta} ϵθ学习预测破坏构象所必需的噪声。

现在的问题是将 ϵ θ \epsilon_{\theta} ϵθ设为平移-旋转等变的。作者使用graph field network(GFN)作为网络。在第 l l l层,GFN采用节点嵌入 h l ∈ R n × b h^{l}\in R^{n\times b} hlRn×b b b b为特征维数)和对应的坐标嵌入 x l ∈ R n × 3 x^{l}\in R^{n\times 3} xlRn×3作为输入,输出 h l + 1 h^{l+1} hl+1 x l + 1 x^{l+1} xl+1 m i j = Φ m ( h i l , h j l , ∣ ∣ x i l − x j l ∣ ∣ 2 , e i j ; θ m ) h i l + 1 = Φ h ( h i l , ∑ j ∈ N ( i ) m i j ; θ h ) x i l + 1 = ∑ j ∈ N ( i ) 1 d i j ( c i − c j ) Φ x ( m i j ; θ x ) m_{ij}=\Phi_{m}(h_{i}^{l},h_{j}^{l},||x_{i}^{l}-x_{j}^{l}||^{2},e_{ij};\theta_{m})\\h_{i}^{l+1}=\Phi_{h}(h_{i}^{l},\sum_{j\in N(i)}m_{ij};\theta_{h})\\x_{i}^{l+1}=\sum_{j\in N(i)}\frac{1}{d_{ij}}(c_{i}-c_{j})\Phi_{x}(m_{ij};\theta_{x}) mij=Φm(hil,hjl,∣∣xilxjl2,eij;θm)hil+1=Φh(hil,jN(i)mij;θh)xil+1=jN(i)dij1(cicj)Φx(mij;θx)其中, Φ \Phi Φ为前向网络, d i j d_{ij} dij为原子间的距离。 N ( i ) N(i) N(i)为节点 i i i的邻居节点,包括连接的原子和半径阈值 τ τ τ内的其他原子,这使模型能够显式地捕捉长范围的相互作用,并支持具有断开部分的分子图。初始嵌入 h 0 h^{0} h0是原子嵌入(来自 G G G)和时间步嵌入(来自 t t t)的组合, x 0 x^{0} x0是原子坐标。该网络与其他GNN的不同在于, x x x的更新结合了径向方向的权重,并且权重直接从构象的坐标进行建模。这可以确保 x L x^{L} xL是旋转等变的。

直观地说,已知 h l h^{l} hl已经不变且 x l x^{l} xl等变,消息嵌入 m m m也将是不变的,因为它只依赖于不变特征。由于 x x x是用不变特征加权的相对差 c i − c j c_i−c_j cicj来更新的,因此它将是平移不变和旋转等变的并且在每一层直接使用构象坐标建模,避免了误差累积,可以得到更准确的表示

训练提升

在制定了生成过程和模型参数化之后,现在考虑反向的实际训练目标。对于生成过程,由于直接优化精确的对数似然是难以处理的,作者转而最大化变分下界(ELBO)。


先验概率,似然,后验概率的具体含义是根据贝叶斯公式灵活变动的,通常,后验概率正比于似然×先验概率,设 p p p为某个概率密度: p ( C t ∣ C t − 1 ) ∝ p ( C t − 1 ∣ G , C t ) p ( G , C t ) p(C^{t}|C^{t-1})∝p(C^{t-1}|G,C^{t})p(G,C^{t}) p(CtCt1)p(Ct1G,Ct)p(G,Ct)在变分推理中,后验分布是很难计算的,我们使用近似的概率分布(该分布是可参数化的已知分布),尝试在给定被观测变量 C t − 1 C^{t-1} Ct1情况下,估计隐变量 C t C^{t} Ct概率分布的过程称为变分推理。如果我们对隐变量进行采样,并且在给定隐变量的情况下,使用似然对被观测变量进行采样,就称为生成过程。


首先,对数边际似然的期望为: E [ l o g ( p θ ( C 0 ∣ G ) ) ] = E [ l o g E q ( C 1 : T ∣ C 0 ) p θ ( C 0 : T ∣ G ) q ( C 1 : T ∣ C 0 ) ] ≥ − E q [ ∑ t = 1 T D K L ( q ( C t − 1 ∣ C t , C 0 ) ∣ ∣ p θ ( C t − 1 ∣ C t , G ) ) ] E[log(p_{\theta}(C^{0}|G))]=E[logE_{q(C^{1:T}|C^{0})}\frac{p_{\theta}(C^{0:T}|G)}{q(C^{1:T}|C^{0})}]\\\geq -E_{q}[\sum_{t=1}^{T}D_{KL}(q(C^{t-1}|C^{t},C^{0})||p_{\theta}(C^{t-1}|C^{t},G))] E[log(pθ(C0G))]=E[logEq(C1:TC0)q(C1:TC0)pθ(C0:TG)]Eq[t=1TDKL(q(Ct1Ct,C0)∣∣pθ(Ct1Ct,G))]其中, q ( C t − 1 ∣ C t , C 0 ) q(C^{t-1}|C^{t},C^{0}) q(Ct1Ct,C0)为易于分析的 N ( α ‾ t − 1 β t 1 − α ‾ t C 0 + α t ( 1 − α ‾ t − 1 ) 1 − α ‾ t C t , 1 − α ‾ t − 1 1 − α ‾ t β t ) N(\frac{\sqrt{\overline{\alpha}_{t-1}}\beta_{t}}{1-\overline{\alpha}_{t}}C^{0}+\frac{\sqrt{\alpha_{t}}(1-\overline{\alpha}_{t-1})}{1-\overline{\alpha}_{t}}C^{t},\frac{1-\overline{\alpha}_{t-1}}{1-\overline{\alpha}_{t}}\beta_{t}) N(1αtαt1 βtC0+1αtαt (1αt1)Ct,1αt1αt1βt)。最大化ELBO等价于最小化每一步的KL散度: L = ∑ t = 1 T γ t E ( C 0 , G ) ∼ q ( C 0 , G ) , ϵ ∼ N ( 0 , I ) [ ∣ ∣ ϵ − ϵ θ ( G , C t , t ) ∣ ∣ 2 2 ] L=\sum_{t=1}^{T}\gamma_{t}E_{(C^{0},G)\sim q(C^{0},G),\epsilon\sim N(0,I)}[||\epsilon-\epsilon_{\theta}(G,C^{t},t)||_{2}^{2}] L=t=1TγtE(C0,G)q(C0,G),ϵN(0,I)[∣∣ϵϵθ(G,Ct,t)22]其中, C t = α ‾ t C 0 + 1 − α ‾ t ϵ C^{t}=\sqrt{\overline{\alpha}_{t}}C^{0}+\sqrt{1-\overline{\alpha}_{t}}\epsilon Ct=αt C0+1αt ϵ γ t = β t 2 α t ( 1 − α ‾ t − 1 ) \gamma_{t}=\frac{\beta_{t}}{2\alpha_{t}(1-\overline{\alpha}_{t-1})} γt=2αt(1αt1)βt。注意,每一步中的噪声没有设计为等变方差,这会违反前面设计的 ϵ θ \epsilon_\theta ϵθ的性质。最终,作者设计噪声为: ϵ ^ = ∂ C t d t ( d t − α ‾ t d 0 1 − α ‾ t ) \widehat{\epsilon}=\partial_{C^{t}}d^{t}(\frac{d^{t}-\sqrt{\overline{\alpha}_{t}}d^{0}}{\sqrt{1-\overline{\alpha}_{t}}}) ϵ =Ctdt(1αt dtαt d0)其中, d t d^{t} dt为3D结构的不变特征,比如原子间距离。

采样

基于训练后的反向过程 ϵ θ ( G , C t , t ) \epsilon_{\theta}(G,C^{t},t) ϵθ(G,Ct,t),可以得到均值 μ θ ( G , C t , t ) \mu_{\theta}(G,C^{t},t) μθ(G,Ct,t),因此,给定一个图 G G G,其构象 C 0 C^{0} C0由第一个采样混沌粒子 C T ∼ p ( C T ) C^{T}\sim p(C^{T}) CTp(CT)生成。然后渐进式采样 C t − 1 ∼ p θ ( C t − 1 ∣ G , C t ) = N ( C t − 1 ; μ θ ( C t , G , t ) , σ t 2 I ) C^{t-1}\sim p_{\theta}(C^{t-1}|G,C^{t})=N(C^{t-1};\mu_{\theta}(C^{t},G,t),\sigma_{t}^{2}I) Ct1pθ(Ct1G,Ct)=N(Ct1;μθ(Ct,G,t),σt2I)

实验

作者在两个标准基准上测试GEODIFF:构象生成和性质预测。

数据集:作者使用了GEOM-QM9和GEOM-Drugs,前者含有小分子,后者是中等大小的有机化合物。对于两个数据集,训练分割由40000个分子组成,每个分子有5个构象,结果总共有20万个构象,验证分割与训练分割共享相同的大小,测试分割包含200个不同的分子,QM9有22408种构象,Drugs有14324种构象。

基线:作者将GEODIFF与6个最近或最先进的基线进行比较。对于ML方法,测试了文献报告性能最高的模型:CVGAE,GRAPHDG,CGCF,CONFVAE和CONFGF。还测试了经典的RDKIT方法,其是最流行的构象生成开源软件。

构象生成评价指标:该任务旨在测量不同模型生成的构象的质量和多样性。形式上,令 S g S_{g} Sg S r S_{r} Sr分别表示某个分子生成的和参考的构象集,则覆盖度Coverage和匹配度Matching为(基于RMSD均方根误差): C O V ( S g , S r ) = 1 ∣ S r ∣ ∣ { C ∈ S r ∣ R M S D ( C , C ^ ) ≤ δ , C ^ ∈ S g ∣ } ∣ M A T ( S g , S r ) = 1 ∣ S r ∣ ∑ C ∈ S r m i n C ^ ∈ S g R M S D ( C , C ^ ) COV(S_{g},S_{r})=\frac{1}{|S_{r}|}|\left\{C\in S_{r}|RMSD(C,\widehat{C})\leq\delta,\widehat{C}\in S_{g}|\right\}|\\MAT(S_{g},S_{r})=\frac{1}{|S_{r}|}\sum_{C\in S_{r}}min_{\widehat{C}\in S_{g}}RMSD(C,\widehat{C}) COV(Sg,Sr)=Sr1{CSrRMSD(C,C )δ,C Sg}MAT(Sg,Sr)=Sr1CSrminC SgRMSD(C,C )其中, δ δ δ分别为QM9和Drugs数据集的0.5Å和1.25Å。一般来说,较高的COV或较低的MAT表明产生了更真实的构象。
fig2

  • 图2:从Drugs数据集生成的结构示例。对于每个模型,都展示了最符合GT的构象。

属性预测评价指标:这项任务估计了一组生成构象的分子集合属性。这可以直接评估生成的样品的质量。作者从GEOM-QM9中提取了一个涵盖30个分子的split,并为每个分子生成50个样本。然后使用化学工具包PSI4计算每个分子的属性,并与Ground Truth进行对比。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/38737.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TP5+PHPMailer 实现发送邮件功能

目录 准备工作 一、PHPMailer是什么&#xff1f; 二、使用步骤 1.查看本机是否开放25端口 2.打开邮箱启动邮箱的SMTP服务 3.下载PHPPHPMailer资源 4.代码编写 总结 准备工作 使用QQ邮箱或者163网易邮箱或者126邮箱&#xff0c;这里以qq邮箱为例来进行介绍。 分为三步&#xf…

[PHPMailer]PHP电子邮件教程

前言 这周也是刚放假回来&#xff0c;苦逼高中生一个&#xff0c;很多时候因为我是住宿生&#xff0c;难免没有硬件设备来跟互联网进行沟通&#xff0c;有的时候我们想要给别人一个祝福&#xff0c;比如说某某人生日&#xff0c;但是你在学校&#xff0c;怎么给他祝福呢&#…

三分钟告诉你有可以ai写作的软件吗

你是否曾经遇到过写作困难的时候&#xff1f;或者是遇到了一个写作任务&#xff0c;但却不知道如何下笔&#xff1f;不用担心&#xff0c;现在有一种神奇的软件可以帮助你迅速解决这些烦恼。它就是ai写作软件&#xff01;是的&#xff0c;你没听错&#xff01;现在&#xff0c;…

改写句子的软件有哪些-免费改写文章的软件

改写句子的软件 改写句子的软件是一种广泛应用于文字处理的工具&#xff0c;其主要作用是通过对原文中的语言结构和表述方式进行调整和优化&#xff0c;以改进文章的质量和可读性。改写句子的软件广泛用于新闻报道、科学文章、学术论文、书籍等各类文本材料中&#xff0c;旨在…

chatgpt赋能python:关于怎么把Python改成黑色的SEO文章

关于怎么把Python改成黑色的SEO文章 在当今数字化时代&#xff0c;SEO已经成为了数字营销策略中非常重要的一部分。而在内容创作方面&#xff0c;黑色SEO占据着很大一部分。黑色SEO指的是通过一些不可取的手段&#xff0c;来获得搜索引擎排名的提升&#xff0c;以获取更多的流…

chatgpt赋能python:用Python更简单地替换句子中的单词

用Python更简单地替换句子中的单词 简介 Python是一种流行的编程语言&#xff0c;因其易于阅读和编写代码而闻名。它拥有许多强大的功能和库&#xff0c;其中一个非常有用的功能是如何替换句子中的单词。在今天的数字时代&#xff0c;SEO变得越来越重要&#xff0c;其中一个关…

邮箱验证前端

邮箱验证前端代码&#xff08;带定时器&#xff09; <!DOCTYPE html> <html > <head><meta charset"utf-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><title>用户忘记密码</title><m…

验证邮箱是否存在

通过socket、smtp验证邮箱是否存在 验证逻辑图 验证邮箱代码 /*** socket验证** param mail 邮箱* return*/private static Boolean smtpVerify(String mail) {Socket socket null;boolean valid;BufferedReader reader null;BufferedWriter writer null;// 获取邮箱的域…

koa发送验证码至邮箱,QQ邮箱发送

提示&#xff1a;koa发送验证码至邮箱&#xff0c;QQ邮箱发送 文章目录 前言一、依赖和邮箱设置二、使用步骤1.vue中Login.vue2.vue中axios.js3.koa中routes.js4.koa中emailCode.js5.koa中app.js 总结 前言 koa发送验证码至邮箱&#xff0c;QQ邮箱发送 一、依赖和邮箱设置 n…

抖音APP接口分析

抖音搜索接口 接口名类型链接搜索用户综合信息posthttps://aweme-hl.snssdk.com/aweme/v1/challenge/search/?搜索相关用户列表posthttps://search-hl.amemv.com/aweme/v1/discover/search/?搜索相关话题列表posthttps://search-hl.amemv.com/aweme/v1/challenge/search/? …

征集即将截止,《中国AIGC产业全景报告暨AIGC 50》邀你共同参与!

随着ChatGPT火爆&#xff0c;AIGC——AI生成内容&#xff0c;热度被推向了最高潮。 短短两个月内&#xff0c;ChatGPT频频刷屏&#xff0c;霸占舆论热点。不仅在多个场景上效果惊人&#xff0c;还实现了最快达到一亿月活&#xff0c;疯狂拉升各个相关技术和概念公司的品牌、股价…

【历史上的今天】8 月 29 日:Wolfram 语言之父、“新”科学家 Stephen Wolfram 的诞生

整理 | 王启隆 透过「历史上的今天」&#xff0c;从过去看未来&#xff0c;从现在亦可以改变未来。 今天是 2022 年 8 月 29 日&#xff0c;2014 年的今天&#xff0c;电影《模仿游戏》在美国的特柳赖德电影节全球首映&#xff0c;将“计算机科学之父”艾伦图灵的传奇人生带到…

猜年龄 美国数学家维纳(N.Wiener)智力早熟,11岁就上了大学。

美国数学家维纳(N.Wiener)智力早熟&#xff0c;11岁就上了大学。他曾在1935~1936年应邀来中国清华大学讲学。 一次&#xff0c;他参加某个重要会议&#xff0c;年轻的脸孔引人注目。于是有人询问他的年龄&#xff0c;他回答说&#xff1a; “我年龄的立方是个4位数。我年龄的4次…

图灵奖获得者杰克·唐加拉:ChatGPT并非“超算大脑”,量子芯片或引领行业跨越式飞跃...

来源&#xff1a;数据观 现任美国田纳西大学电气工程和计算机科学系教授的杰克唐加拉&#xff08;Jack J. Dongarra&#xff09;&#xff0c;既是美国国家工程院院士&#xff0c;又是英国皇家学会外籍院士。他是超级计算机基准测试、数值分析、线性代数解算器和高性能计算领域的…

数学家排行榜:高斯和黎曼谁才是近现代最伟大的数学家?

第一&#xff1a;牛顿&#xff0c;高斯&#xff0c;欧拉&#xff0c;阿基米德 第二&#xff1a;柯西&#xff0c;庞加莱&#xff0c;康托尔&#xff0c;凯莱&#xff0c;哈密尔顿&#xff0c;黎曼&#xff0c;爱森斯坦&#xff0c;帕斯卡 第三&#xff1a;伽罗瓦&#xff0c;阿…

中国著名的数学家

一、丘成桐 丘成桐教授&#xff08;1949.4.4.~现在&#xff09; 国际著名数学家&#xff0c;20世纪国际著名华人数学家陈省身老先生的学生&#xff0c;现担任美国科学院院士、中国科学院外籍院士、俄罗斯科学院外籍院士、意大利Lincei 科学院外籍院士、台湾中央研究院院士、…

顶级数学家到底有多厉害?

数学是我的全部生活。 ——哈代 01 哈代 哈代&#xff08;Hardy&#xff0c;Godfrey Harold&#xff0c;1877年2月7日&#xff5e;1947年12月1日&#xff09;&#xff0c;卒于剑桥。13岁进入以培养数学家著称的温切斯特学院。23岁在剑桥获得职位。同年得史密斯奖。 在20世纪上半…

微软官方确认新浏览器Edge不再支持Silverlight

微软的新浏览器Edge一直广受关注&#xff0c;这次Windows 10大招背后的每一个技术细节都体现了微软的态度。日前&#xff0c;微软在官网声称&#xff0c;Edge将不再支持ActiveX&#xff0c;同时也移除了对Silverlight的支持。放弃ActiveX也意味着Edge浏览器将不会支持公司自己的…

关于Office 365开发者订阅无法注册的说明

自发布Office 365开发者订阅的消息已经有一段时间了&#xff0c;在这段时间里不时有收到网友的反馈&#xff0c;说收不到验证码&#xff0c;开始的时候没太在意&#xff0c;认为可能是个别手机运营商的问题&#xff0c;但是一直持续地收到这样的反馈&#xff0c;所以我决定看看…

微软明年停止支持IE浏览器 鼓励使用Edge浏览器

微软在其官方社区宣布自今年 11 月 30 日起&#xff0c;Microsoft Teams Web 应用将逐步停止对IE11的支持&#xff1b;从 2021 年 8 月 17 日起&#xff0c;IE 11 浏览器将不再支持微软旗下包括Office365&#xff0c;OneDrive 云盘&#xff0c;Outlook 邮箱等办公软件服务。微软…