长链非编码 RNA (lncRNAs) 在调控生物活动中起着重要作用,其预测对探索生物过程具有重要意义。长短期记忆 (LSTM) 和卷积神经网络 (CNN) 可以自动从编码的 RNA 序列中提取和学习抽象信息,以避免复杂的特征工程。集成模型从多个角度学习信息,并显示出比单个模型更好的性能。将 RNA 序列分别视为句子和图像来训练 LSTM 和 CNN,然后将训练好的模型杂交以预测 lncRNAs,这是可行且有趣的。到目前为止,lncRNAs 有多种预测因子,但很少有预测因子被提议用于植物。一个可靠而强大的植物 lncRNA 预测因子是必要的。
1.编码方式
One-hot 是一种常见的编码样式 [30]。这里 one-hot 编码的规则是这样的,A 被编码为 (1, 0, 0, 0)T,T 编码为 (0, 1, 0, 0)T,C 编码为 (0, 0, 1, 0)TG 编码为 (0, 0, 0, 1)T.然后将每个样本序列编码成一个 4 行 N 列的 0-1 矩阵(类似于二维灰度图像),其中 N 被设置为所有样本中最长的序列长度。对于那些序列长度小于 N 的样本,对其空列执行零填充(图 D)。4b)。
2模型结构
lncRNA-LSTM 是我们之前研究中构建的基于 LSTM 的模型 [29]。其架构包含一个词嵌入层、一个双向 LSTM 层和一个全连接层。在双向 LSTM 层中,单位设置为 64,dropout rate 设置为 0.4。在全连接层中,选择“sigmoid”作为激活函数。选择二进制交叉熵损失函数来计算损失,该函数使用 “Adam” 优化器进行优化。每层的参数都通过反向传播进行更新。每个 p 核苷酸编码的样本序列都输入为 4p-维向量转化为 lncRNA-LSTM。与 [29] 中 lncRNA-LSTM 的概述不同,这里的输出被映射到 [0, 1] 区间以获得置信概率而不是标签。它的值表明相应样本被预测为 lncRNA 的置信度(图 D)。5).
混合深度学习
分别训练 lncRNA-LSTM 和 CNN,用于预测输入样本序列以输出置信度概率。然后,他们根据三种混合策略在决策层面进行混合。
PlncRNA-HDeep 的源代码和使用的数据集可在 https://github.com/kangzhai/PlncRNA-HDeep 获得。