【分子材料发现】——GAP：催化过程中吸附构型的多模态语言和图学习（数据集处理详解）（二）

Multimodal Language and Graph Learning of Adsorption Configuration in Catalysis

https://arxiv.org/abs/2401.07408

Paper Data: https://doi.org/10.6084/m9.figshare.27208356.v2

1 Dataset

CatBERTa训练的文本字符串输入来源于Open Catalyst 2020 （OC20，只关注IS2RE/IS2RS任务的数据）和Open Catalyst 2020 Dense （OC20-Dense）数据集中的松弛结构(relaxed structure)。对于涉及CatBERTa的训练和CrystaLLM微调、训练和验证都是使用来自DFT放松结构的文本进行的。

具体来说：

对CatBERTa模型进行了两种类型的训练：图辅助预训练和下游能量预测任务的训练。都需要将松弛结构转换为字符串表示，然后其用于训练和验证过程。
对图辅助预训练效果的评估是通过对从ML放松结构生成的字符串进行预测实现的。<ML松弛结构及其DFT计算的能量labels由Open Catalyst Project Challenge 2023提供。在OC20-Dense数据集中OOD splits使用GemNet-OC、SCN和eSCN进行ML松弛，分别得到11508、11630和11755个松弛结构。为了得到有效的DFT能量，对ML松弛结构进行了DFT单点计算。>(<>部分为OC20-Dense中对数据的处理)。
GAP使用大约920个具有有效DFT能量的ML松弛结构来评估模型的准确性（即下游能量预测任务）。通过计算使用GemNet-OC、SCN和eSCN放松的结构预测的标准差，GAP量化了模型预测的不确定性。如Table S5所示。对于embedding和attenetion score的分析，GAP使用了所有的ML松弛结构，不管这些结构是否验证了DFT能量（即图辅助预训练）。
对于CrystaLLM微调：为放松的结构创建CIFs，然后使用它们对CrystaLLM进行微调。
从OC20-Dense训练集中选择了adsorbate和catalyst对的子集，其中包含235个独特的adsorbate-catalyst对，只提取这些对中的adsorbate、catalyst和Miller指数信息，将它们用作微调后的CrystaLLM的初始提示。

2 Data Pattern

string generation
输入至CatBERTa的字符串格式由三部分组成：adsorbate、catalytic surface和adsorption configuration。

adsorbate
只包含元素符号。
catalyst
催化剂的元素组成及Miller指数。
adsorption configuration
包括初级相互作用原子与次级相互作用原子。将与adsorbate直接相连的原子称为初级相互作用原子(primary interacting atoms)，初级相互作用原子在表面上相邻近的原子为次级相互作用原子(secondary interacting atoms)。