通过多层混合MTL结构提升股票市场预测的准确性，R²最高为0.98

“Boosting the Accuracy of Stock Market Prediction via Multi-Layer Hybrid MTL Structure”

论文地址：https://arxiv.org/pdf/2501.09760

摘要

本研究引入了一种创新的多层次混合多任务学习架构，致力于提升股市预测的效能。此架构融合了Transformer编码器、双向门控循环单元（BiGRU）以及Kolmogorov-Arnold网络（KAN）。据实验结果表明，相较于其他模型，该架构在预测准确度方面表现更佳，其平均绝对误差（MAE）可低至1.078，平均绝对百分比误差（MAPE）最小达到0.012，决定系数（R²）最高为0.98。

简介

股票市场预测对投资者和企业来说极为关键，但因数据的复杂性，传统统计模型如ARMA、ARIMA和GARCH等在效果上存在局限。相比之下，机器学习技术在股票预测方面表现更优，特别是深度学习方法（例如卷积神经网络和递归神经网络）展示了更强大的学习能力。传统方法通常忽略了不同股票间的相互关系，而引入空间维度可以改进预测精度，图神经网络（GNN）在这方面已被采用。Transformer模型通过注意力机制能有效捕捉复杂的关联性，但在处理长序列和高维数据时面临挑战。KAN（知识增强网络）利用边函数参数替代传统的权重设置，提高了对非线性函数的逼近能力。集成学习策略在金融预测领域中表现出明显优势，本研究提出的算法可作为集成学习框架的一部分。该研究介绍了一种结合了Transformer编码器、双向门控循环单元（BiGRU）与KAN的多层混合多任务学习框架，旨在提升股票市场预测的效率及准确性。

01相关工作

股票市场趋势预测对于学术研究和实际操作都极为重要。预测手段涵盖了从传统统计方法到先进的机器学习模型。过去，传统方法在该领域占据主导地位，然而，随着神经网络和深度学习等机器学习算法的兴起，这一状况正在发生变化。通过结合传统技术与现代方法，混合模型能够提供更高的预测精度和稳定性。

传统方法

传统股票市场预测方法涉及时间序列模型和隐马尔可夫模型（HMM）。Devi等人率先应用ARIMA模型来预测市场趋势，Khanderwal指出ARIMA更适合短期预测。Marisetty等人则采用GARCH模型研究了五大金融指数的波动性，表明GARCH是进行波动性预测的理想选择。Gupta等人提出了基于HMM的最大后验估计器，用于预测次日股票价格，并发现其性能优于ARIMA和ANN模型。Su等人将HMM从传统的离散形式扩展到连续形式，以更好地适应股票价格趋势的预测。

然而，由于传统统计方法本质上具有线性特征，它们在股价剧烈波动的情况下表现不佳。为解决这一问题，Mattera等人引入了动态网络自回归条件异方差（ARCH）模型，以提高处理高维输入数据时的股票预测准确性。

机器学习方法

机器学习，特别是神经网络模型，在股票价格预测方面展现了最高的准确性。例如，Vijh等人利用人工神经网络和随机森林来预测五家公司的次日收盘价。在处理复杂的非线性数据时，深度学习方法显示出比传统技术更优的性能。尤其是在股票指数预测中，LSTM单输入模型的表现超过了传统的机器学习模型。此外，采用多变量的深度学习方法能够更精准地预测股市波动。Tang等人开发的基于小波变换的LSTM模型，通过使用多维数据输入，实现了72.19%的准确率。Deep等人提出的多因子分析模型，整合了技术分析、基本面分析、机器学习以及情感分析，其表现超越了单一因子的模型。

混合方法

混合学习模型通过整合多种预测技术来提高准确性和减少过拟合。首次提出的集成模型是在2001年，Abraham等人开发了结合神经模糊逻辑和人工神经网络的早期混合模型，展现了出色的预测性能和趋势分析能力。Shah等人的研究考察了多种股票价格预测手段，认为融合统计方法与机器学习技术的混合策略更为有效。Shui-Ling等人设计了一种新的ARIMA-RNN混合模型，解决了单一模型在波动性预测和神经网络过拟合方面的局限。Zhang等人提出的ARIMA-CNN-LSTM模型在股票指数预测上提供了卓越的准确度和稳定性。Tian等人研发的多层次双向LSTM-BO-LightGBM模型则在股票价格波动预测中表现出更强的逼近能力和泛化性能。Lv等人提出的CEEMDAN-DAE-LSTM混合模型引入了特征提取模块DAE，增强了对波动性股票指数的预测效果。

研究显示，集成学习模型在处理复杂动态数据集时显著提升了预测精度，凸显了持续发展混合模型的重要性，以适应市场变化和技术进步的需求。

02方法

问题定义

本方法旨在开发一个映射函数 f(A)，以进行股票价格预测。输入 A 包含多个特征 x m，而输出则是预测值 f(A)。目标是使该预测值尽可能地接近实际值。

多层混合MTL结构概览

此框架集成了多维金融数据以提高预测准确性，输入数据包括开盘价、收盘价、最低价、最高价、交易量和交易金额。该结构由Transformer编码器、KAN层和BiGRU层组成，能够有效处理高维数据并捕捉各特征间的关系。KAN层旨在优化学习过程，提炼出有意义的数据表示，而BiGRU层则专注于捕捉金融时间序列中的长期依赖关系，同时考虑历史和未来的信息。

通过多任务学习，模型不仅能预测交易量和交易金额，还能利用共享的潜在表示增强股票预测的效果。整个框架的目标是提供精确且稳定的预测结果，以应对金融市场固有的复杂性。

Transformer编码器层

Transformer编码器层由两个主要子层构成：多头自注意力机制和全连接前馈网络，每个子层都包含残差连接和层归一化。在多头自注意机制中，输入向量X被转换为查询（Q）、键（K）和值（V）向量，并行处理多个独立的注意力计算。

每个注意力头独立地计算其注意力权重，采用缩放点积的方法来确定，最终输出是这些加权值向量的总和。所有头部的结果会被拼接在一起，并通过一个线性变换以生成最终输出。使用4个注意力头可以提升预测准确性，同时增强模型识别复杂模式的能力。

前馈网络包括两个线性变换及一个ReLU激活函数，有助于提高模型捕捉非线性特征的能力。Add/Normalize层则利用层归一化与残差连接结合的方式，帮助缓解梯度消失或爆炸的问题。

Detailed KAN层

Li等人将Kolmogorov-Arnold定理的应用扩展到了机器学习领域，开发了KAN神经网络结构。在KAN中，激活函数被设置在边而不是节点上，这使得它能够学习自适应的非线性函数，并允许通过细化节点来提升逼近精度。实验显示，KAN在处理平滑及非线性函数时表现出色，其收敛速度更快，特别是在高维数据方面优于传统的多层感知器（MLP）。

KAN采用单变量函数参数代替传统权重参数，每个节点直接汇总这些函数的输出值，无需进行非线性变换。这种方法特别适用于时间序列预测，与传统的MLP相比，它提供了更高的预测准确性。

Detailed BiGRU层

BiGRU模型是一种利用双向GRU进行多变量时间序列预测的方法，能够有效捕捉数据中的双向依赖关系及多变量间的相互作用。该模型包含两个GRU网络：一个负责从前往后处理序列数据，另一个则从后往前处理。最终的隐藏状态是通过将这两个方向上的隐藏状态拼接而获得的。这些隐藏状态随后会经过一个全连接层，并使用Softmax激活函数来生成输出结果。

03实验

实验设置

为了评估提出方法的有效性，实验分为两部分进行：一是与多种先进方法的比较，二是利用五种已知模型（KAN、Transformer、BiGRU、KAN-BiGRU、Transformer-KAN）进行消融实验。实验的目的在于全面检验所提出的模型在股票价格预测方面的性能和鲁棒性。输入特征涵盖了开盘价、收盘价、最高价和最低价，目标是精确预测未来多个时间步长的各项指标值。

评估指标

使用四个指标来评估模型性能：平均绝对误差（MAE）、均方根误差（RMSE）、平均绝对百分比误差（MAPE）和决定系数（R²）。

MAE：用于测量预测值与实际值之间的平均绝对差异，数值越小表示模型的预测能力越强。

RMSE：通过将误差转换回原始数据单位，使得误差更易于理解。

MAPE：是一种相对误差度量标准，适合用于不同数据集之间模型性能的比较，其值越低表明预测准确性越高。

R²：衡量的是自变量能够解释的方差比例，反映出模型对输入数据的拟合程度。

结果

本方法在0-50和120-200时间步区间内与实际值高度吻合，误差低于其他方法。相比之下，其他方法在这些区间往往出现滞后或偏差，无法准确捕捉整体趋势及变化的关键点。特别是在识别局部的高低点（例如40-60和170-200时间步）时，本方法显示出显著的优势，能够有效减少噪声干扰。

模型在处理高频波动区域时表现出良好的稳定性，能够有效地过滤噪声，使得预测曲线更加平滑，更接近真实值。具体而言，在RMSE指标上达到了39.820，相比Hemajothi等人的研究减少了17.2%，这表明了更强的鲁棒性以及对大幅波动和异常值的有效管理能力。R²值为0.977，相较于Gao等人和Hemajothi等人的工作分别提高了4.2%和3.1%，证明了该模型在捕捉短期变动和长期趋势方面的优越表现。尽管MAE和MAPE也有改进，但RMSE和R²的提升尤为关键，这证实了该方法在控制误差和检测趋势上的卓越性能，非常适合复杂、带噪声及非线性的数据序列预测任务。

消融分析

多层混合MTL结构在股票市场预测中展现了出色的预测精度和稳定性，超越了KAN、Transformer、BiGRU等模型。特别是在高频波动区域，其他模型的预测容易受到噪声的影响，而本方法生成的曲线更加平滑，与实际值保持高度一致。

在关键拐点（例如50-70和170-200时间步）的捕捉上，本方法显示出了更高的敏感性和准确性，相比之下，其他模型可能会出现预测滞后或过拟合的问题。对于趋势恢复区间（如150-250时间步），其他模型的预测曲线显示出较大的波动，而本方法能有效过滤噪声，维持稳定表现。

本方法在RMSE指标上达到了21.004，比最佳的Transformer-BiGRU模型低39.7%，同时R²值为0.968，这表明它在复杂数据环境下具有卓越的鲁棒性和趋势捕捉能力。尽管引入Transformer编码器和KAN层增加了模型的时间复杂度，但我们的模型在推理效率方面有了显著提升。通过交叉验证得出的平均测试R²为0.9831，进一步证实了结果的高度可靠性。