蛋白质/聚合物防污的机器学习(材料基因组计划)

前言:对于采用机器学习去研究聚合物的防污性能,以及或者其他性质。目前根据我的了解我认为最困难的点有三条:

  1. 其一:数据,对于将要训练的数据必须要有三点要求,1.数据要多,也就是大数据,通过大量的数据更能发现某些共性的规律。而且数据量大之后对于某些误差数据的干扰就会减少。2.数据要准,其实对于某些文章的实验数据我报有很大的怀疑态度。最好的数据来源就是亲身计算的数据或者某些知名数据库的数据。3.数据类型要丰富,数据类型越丰富,可以描述的性质越多,可能或者对于所研究的性质关联性越强。

  2. 其二:描述符,对于描述符的选取也十分重要,好的描述符能够准确简洁的描述好想要研究的性质,不会出现过拟合或者欠拟合的状态。
  3. 其三:拟合函数。拟合函数也不是越复杂越好,一个合适的拟合函数,能够准确的描述想要研究的性质,最好具有迁移性以及扩展性。

如果能够准确的解决以上三个重点,发一篇好的文章肯定是志在必得的事情。

一、数据

数据质量是ML模型的基石,它直接影响模型的性能和应用。因此,在ML建模之前收集可靠的数据非常重要。数据集通常由因变量和自变量组成。因变量是指聚合物的目标特性,可以从实验、数据库、出版物、第一性原理计算或分子动力学模拟中获得。用实验数据构建的ML模型可以帮助研究人员更直观地指导实验,同时牺牲相对较高的经济性、劳动力和时间成本。从数据库中收集数据是在短时间内获取大量数据的一种非常方便的方法。

收集可用的聚合物数据库

Materials ProjectComputed properties of known and hypothetical materialshttps://materialsproject.org
Protein Data Bank (PDB)3D structures of proteins, nucleic acids, and complex assemblieshttp://www.wwpdb.org
CitrinationComputed and experimental properties of materialshttps://citrination.com
Polymer GenomeAn informatics platform for polymer property prediction and designhttps://www.polymergenome.org
PoLyInfoVarious data required for polymeric material designhttps://polymer.nims.go.jp
NanoMineAn open-source data resource for members of the nanocomposites communitymaterialsmine
Polymer Property Predictor and DatabaseFlory–Huggins χ parameters and glass transition temperatures for various polymershttps://pppdb.uchicago.edu
Physical Properties of PolymersVarious physical properties and characterization techniques of polymersby J. Mark, K. Ngai, W. Graessley, L. Mandelkern, E. Samulski, J. Koenig and G. Wignall
ACD/Labs NMR DatabasesPolymer NMR spectraACD/Labs | Software for R&D | Chemistry Softwareproducts/dbs/nmr_db
Polymer Science Learning Center Spectral DatabasePolymer IR and NMR spectrahttps://pslc. uwsp.edu
NIST Synthetic Polymer MALDI Recipes DatabaseMatrix-assisted laser desorption ionization (MALDI) mass spectrometry on a wide variety of synthetic polymershttps://maldi. nist.gov
CROW Polymer Properties DatabaseA multitude of polymer propertieshttp://polymerdatabase.com
MATWEB Material Property DataMaterial properties of thermoplastic and thermoset polymershttp://www.matweb.com
Material Properties DatabaseEngineering material properties that emphasize ease of comparisonhttps://www.makeitfrom.com
1聚合物基因组Polymer Genome: Predict高分子材料的计算或实验特性数据库以及用于快速预测的相应机器学习模型。
2PoLy信息高分子データベース(PoLyInfo) - DICE :: 国立研究開発法人物質・材料研究機構PoLyInfo 从学术文献中提供有关高分子材料的 ≈100 性质、化学结构和合成方法的信息。
3聚合物性能预测器和数据库Polymer Property Predictor and Database用于结构和多功能应用的聚合物材料的Flory-Huggins χ参数和玻璃化转变温度。
4材料属性数据库MakeItFrom.com: Material Properties Database该数据库提供聚合物材料的机械、热学和电学性能。
5CROW聚合物特性数据库iPage高分子科学数据库,包括高分子材料的结构、性能和应用。
6PI1MGitHub - RUIMINMA1996/PI1M: A benchmark dataset for polymer informatics.100万种聚合物用于聚合物信息学。
7UniProt的UniProtUniProt 提供全面、高质量且可免费访问的蛋白质序列和功能信息资源。

二、描述符

传统的分子描述符主要包括组成、结构、工艺参数和光谱信息。

因此,如何使用ML快速高效地从出版物中提取数据也成为研究热点。近年来,第一性原理计算和分子动力学模拟在预测目标性质方面得到了快速发展。但是,在ML过程中传输的计算中也存在不可避免的错误,从而降低了模型的鲁棒性。自变量是指影响因变量的因素,也称为特征或描述符。这些描述符包括化学成分、原子参数、结构参数或过程参数,可以从领域知识或描述符生成软件中获得。

聚合物指纹

尼龙-6的重复单元可以看作是1-NH-,5-CH的连接2- 和 1-CO 块。构成重复单元的这些构建块称为聚合物指纹

常用的聚合物指纹图谱包括摩根指纹图谱(MF)、分子嵌入图谱(ME)和分子图谱(MG)除了最常用的MF、ME和MG指纹作为聚合物表示外,还有其他指纹也可以用来表示聚合物,如原子对指纹、拓扑扭转指纹、分层指纹等。

结构的描述符

聚合物指纹图谱更侧重于重复单元的组成信息,而基于结构的描述符不仅反映了重复单元的组成信息,还表征了结构信息。根据分子结构的维度,基于结构的描述符可分为二维描述符和三维描述符

2D 和 3D 描述符可以通过专业的描述符生成软件获得,例如 Dragon;或开源工具包,例如 Mordred 和 RDKit 中的其他工具包。

使用最广泛的基于 2D 的结构描述符是 SMILES 表示。SMILES 的全称是 Simplified Molecular Input Line Entry System,

基于 3D 结构的描述符可以通过 Mordred 和 Dragon 等描述符生成软件获得。

2.1 描述符的评估

根据描述符和目标之间的冗余和相关性,特征可以分为四个基本子集:不相关特征、冗余特征、弱相关但非冗余特征和强相关特征。不相关和冗余的特征往往会降低模型的评估指标,使模型性能更差。适当的特征选择算法应在不丢失任何重要信息的情况下降低输入空间的维数。根据评估策略与建模算法的关系,特征选择技术可分为滤波器、包装器和嵌入式。

滤波方法旨在通过原始数据集计算特征与目标之间的相关性,并通过设置阈值来选择关键特征,以消除相关性较弱的特征。[88]滤波方法的主要特点在于特定判别模型的独立性以及对特征之间潜在相关性的无知。[89、90]Wrapper 方法从所有特征组合中尽可能地选择最优特征组合,将特征选择过程视为搜索最优任务。[91]过滤法和包装法的区别在于建模算法是否在特征选择过程中引入。

因此,这种方法基本上通过特征选择来封装分类或预测结果,一次评估一次变量的组合。3显示了高分子材料中常用的过滤器和包装器类型的特征选择算法。嵌入式方法是筛选出特定算法的重要特征子集,在构建分类或回归模型时,可以给出每个特征的评价分数。该方法结合偏最小二乘回归(PLSR)、随机森林(RF)和惩罚回归等不同算法,可以提高整体预测精度。

 高分子材料中的常见特征选择算法

1CFSFilterCFS estimates the performance of a subset of features rather than a single feature. It introduces a forward search strategy to select strongly correlated non-redundant features.
2mRMRFiltermRMR uses incremental search to select features, which can maximize the correlation between features and categories as well as minimize the redundancy between features.
3Markov blanketFilterMarkov blankets can perform feature redundancy analysis. In the feature space, the detailed information of the target variable can be obtained from its Markov blanket, and the non-Markov blanket can be regarded as redundant features of the target variable to reduce the feature dimension.
4Genetic algorithmWrapperGenetic algorithm uses an evolution-based method to determine the optimal set. After the algorithm runs for a certain number of generations, the optimal member of the group is the selected feature.
5Backward eliminationWrapperAll independent variables are selected into the model and then the partial F test is performed on each independent variable. The smallest F value is recorded as FL and compared with the pre-specified significance level F0. If FL < F0, the variable is eliminated, and refit the regression model with the remaining variables.
5Forward selectionWrapperForward selection method is a method of independent variable selection of a regression model. Its characteristic is to introduce the candidate independent variables into the regression equation one by one to test the significance of the regression coefficient, and to decide whether to introduce the independent variable into the model.

三、ML算法

监督学习:训练数据包含输出标签以实现数据分类或回归

支持向量机,人工神经

无监督学习:无输出标签

K均值聚类和主成分分析

强化学习:迭代方法,其中智能体采取行动改变其状态并与环境交互以最大化其目标奖励值

马尔可夫决策过程和主动学习

算法:支持向量机(SVM) 图神经网络 (GNN)、高斯过程回归 (GPR)、主动学习和支持向量机 (SVM)人工神经网络(ANN)深度学习 迁移学习 遗传算法(GA)贝叶斯算法。

四、实际流程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/320594.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

毕设:邮件分发系统

文章目录 前言一、登录1.邮箱登录2.账号登录 二、注册三、首页四、写邮件五、收邮件六、草稿箱七、垃圾箱八、已发送九、通讯录十、用户管理十一、邮件管理十二、登录日志总结 前言 分享一下邮件分发系统 一、登录 1.邮箱登录 2.账号登录 二、注册 三、首页 首页有邮件信息&…

【蓝桥杯备赛国赛】5-5

文章目录 求阶乘双子数 求阶乘 求阶乘 分析k的范围&#xff0c;10的18次方。这个数字很大 想要末尾有0的存在必须要2和5&#xff0c;但是通过分析2的数目应该是远远多于5的&#xff0c;所以只要5的数目够多即可。所以for循环的层次也是10的九次方以上&#xff0c;必然会超时&…

光端机(2)——光纤通信学习笔记九

学习笔记里面只关注基本原理和概念&#xff0c;复杂的公式和推导都没有涉及 光端机 光发射机 作用&#xff1a;实现电光转换。将来自电端机的电信号对光源发出的光波进行调制&#xff0c;然后将调制好的光信号耦合到光线中传输。 基本性能要求 1.合适的发光波长&#xff08;光…

GateWay检查接口耗时

添加gateway依赖 <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-gateway</artifactId> </dependency>创建一个LogTimeGateWayFilterFactory类&#xff0c;可以不是这个名字但是后面必须是x…

webstorm 常用插件

安装插件步骤&#xff1a; 打开软件&#xff0c;文件 -- 设置-- 插件 -- 输入插件名称 -- 安装 代码截图: code screenShots 先选中代码&#xff0c;按 ctrl shift alt a&#xff0c;就可截取选中的代码颜色注释: comments highlighter 对注释的文字改变颜色高亮成对符号: h…

设计模式Java实现-建造者模式

楔子 小七在2019年的时候&#xff0c;就想写一个关于设计模式的专栏&#xff0c;但是最终却半途而废了。粗略一想&#xff0c;如果做完一件事要100分钟&#xff0c;小七用3分钟热情做的事&#xff0c;最少也能完成10件事情了。所以这一次&#xff0c;一定要把他做完&#xff0…

【前端】HTML实现个人简历信息填写页面

文章目录 前言一、综合案例&#xff1a;个人简历信息填写页面 前言 这篇博客仅仅是对HTML的基本结构进行了一些说明&#xff0c;关于HTML的更多讲解以及CSS、Javascript部分的讲解可以关注一下下面的专栏&#xff0c;会持续更新的。 链接&#xff1a; Web前端学习专栏 下面我对…

【毕业设计】基于SSM的运动用品商城的设计与实现

1.项目介绍 在这个日益数字化和信息化的时代&#xff0c;随着人们购物习惯的转变&#xff0c;传统的实体商店已经无法满足人们日益增长的在线购物需求。因此&#xff0c;基于SSM&#xff08;Spring Spring MVC MyBatis&#xff09;框架的运动用品商城项目应运而生&#xff0…

LearnOpenGL(七)之摄像机

一、摄像机/观察空间 当我们讨论摄像机/观察空间(Camera/View Space)的时候&#xff0c;是在讨论以摄像机&#xff08;人&#xff09;的视角作为场景原点时场景中所有的顶点坐标&#xff1a;观察矩阵把所有的世界坐标变换为相对于摄像机位置与方向的观察坐标。要定义一个摄像机…

探索Kimi模型AI:革新人工智能的未来

探索Kimi模型AI&#xff1a;革新人工智能的未来 人工智能&#xff08;AI&#xff09;技术的发展已经取得了巨大的进步&#xff0c;为我们的生活带来了许多便利和创新。在这个充满活力和竞争的领域中&#xff0c;Kimi模型AI以其独特的设计和功能吸引了人们的注意。本文将深入探…

final关键词

基本介绍 final 中文意思是&#xff1a;最后的&#xff0c;最终的final可以修饰 类、属性、方法和局部变量何时会用到final&#xff1a; 1&#xff0c;当不希望类被继承时&#xff0c;可以用final修饰 2&#xff0c;当不希望父类的某个方法被子类覆盖/重写&#xff08;overrid…

矩阵式键盘的控制

键盘扫描是最 为常用的工作方式&#xff0c;扫描方式又可分为程序程扫描、定时扫描和中断扫描。程序扫描是指在 特定的程序位置段上安排键盘扫描程序读取键盘状态。定时扫描是指利用单片机内部或扩展 的定时器产生定时中断&#xff0c;在中断中进行键盘扫描的工作方式。中断扫描…

全国产业园运营排名前十!树莓集团助推载体运营高质量发展

树莓集团&#xff0c;作为数字产业生态链的杰出建设者&#xff0c;以及在全国产业园运营中名列前茅的领航者&#xff0c;其独特的集团核心文化——高效、友善、敢为&#xff0c;成为了推动其不断前行的强大动力。树莓集团深谙在数字化时代&#xff0c;政、产、企、校四个板块之…

硬件设计 之 压敏电阻简单介绍

1. 什么是压敏电阻&#xff08;Varistor Voltage&#xff09;&#xff1a; 压敏电阻&#xff08;Varistor&#xff09;是一种特殊类型的电阻器件&#xff0c;具有非线性电阻特性。它的主要作用是保护电子电路免受过电压或过电流的损害。 测定电流为1mA&#xff0c;此时TNR端子…

纯血鸿蒙APP实战开发——页面间共享组件实例的案例

介绍 本示例提供组件实例在页面间共享的解决方案&#xff1a;通过Stack容器&#xff0c;下层放地图组件&#xff0c;上层放Navigation组件来管理页面&#xff0c;页面可以共享下层的地图组件&#xff0c;页面中需要显示地图的区域设置为透明&#xff0c;并参考触摸交互控制&am…

HTML_CSS学习:定位

一、相对定位 相关代码&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>相对定位</title><style>.outer{width: 500px;background-color: #999ff0;border: 1px solid #000;p…

BEV下统一的多传感器融合框架 - FUTR3D

BEV下统一的多传感器融合框架 - FUTR3D 引言 在自动驾驶汽车或者移动机器人上&#xff0c;通常会配备许多种传感器&#xff0c;比如&#xff1a;光学相机、激光雷达、毫米波雷达等。由于不同传感器的数据形式不同&#xff0c;如RGB图像&#xff0c;点云等&#xff0c;不同模态…

【Docker学习】docker start深入研究

docker start也是很简单的命令。但因为有了几个选项&#xff0c;又变得复杂&#xff0c;而且... 命令&#xff1a; docker container start 描述&#xff1a; 启动一个或多个已停止的容器。 用法&#xff1a; docker container start [OPTIONS] CONTAINER [CONTAINER...] 别名&…

标准IO学习

思维导图&#xff1a; 有如下结构体 struct Student{ char name[16]; int age; double math_score; double chinese_score; double english_score; double physics_score; double chemistry_score; double bio_score; }; 申请该结构体数组&#xff0c;容量为5&#xff0c;初始…

Android手写自己的路由SDK

实现自己的路由框架 ​ 在较大型的Android app中常会用到组件化技术&#xff0c;针对不同的业务/基础功能对模块进行划分&#xff0c;从上到下为壳工程、业务模块、基础模块。其中业务模块依赖基础模块&#xff0c;壳工程依赖业务模块。同级的横向模块&#xff08;比如多个业务…