目录
- 简单概括
- 1 背景知识
- 相关的工作
- 图学习在股票预测中的应用
- 股票预测中的收益电话会议
- 方法
- 异质股票图结构建造
- 时间分配机制
- 滑动窗机构
- 库存空间关系模块
- 异构边缘类型消息传递
- 音频引导的注意聚合
- 财报电话会议后股票动态模块
- 预测和优化
- 实验
- 消融研究 (for Q2)
- 模拟交易 (for Q3)
- 结论
简单概括
股票走势预测在量化交易中起着重要的作用。尽管现有模型通过纳入股票关系来增强股票走势预测,但这些预测模型面临两个局限性,即构建不充分或静态的股票关系,由于复杂的动态股票关系在不断变化的金融市场中受到各种因素的影响,因此无法有效地捕捉复杂的动态股票关系。为了解决上述限制,我们提出了一种新的基于股票关系的股票运动预测模型ECHO-GL ,该模型来源于收益电话会议。ECHO-GL不仅利用财报电话会议中丰富的语义信息构建全面的股票关系,而且基于多模态和异构图学习捕获相关股票之间的运动信号。此外,ECHO-GL根据后收益公告漂移(PEAD)现象定制可学习的股票随机过程,生成时间股价轨迹,可以很容易地插入到任何不同时间的投资策略中,以满足投资需求。在两个金融数据集上的大量实验证明了ECHO-GL在股票价格走势预测任务上的有效性,具有较高的预测精度和交易盈利能力
论文:ECHO-GL: Earnings Calls-Driven Heterogeneous Graph Learning for Stock Movement Prediction
作者:Mengpu Liu1, Mengying Zhu1*, Xiuyuan Wang2, Guofang Ma3, Jianwei Yin1, 2, Xiaolin Zheng2
单位:浙江大学
代码:https://github.com/pupu0302/ECHOGL
关注微信公众号,获取更多资讯
1 背景知识
股票走势预测在 量化交易中扮演着重要的角色,其目的是预测股票的未来趋势 ,以帮助投资者做出良好的投资决策。传统的股票运动 预测方案基于深度时间序列模型,将 股票运动视为相互独立的,忽略了相关股票运动之间 有价值的丰富信号。
最近出现了一种新兴的研究趋势,即通过建立股票关系模型来增强股票走势预测,可分为两类: 基于价格的方法(Li et al. 2021;Zhu et al. 2022)和侧信息方法(Feng et al. 2018;Sawhneyet al. 2021)。然而,这两类方法都有其限制如下。一方面,基于价格的方法基于估计的经验股票相关矩阵(Li et al. 2021)或建模预测股票相关性(Zhu et al. 2022)来预测股票走势。然而,对于现实世界的金融市场来说,仅仅依靠股票价格是次优的,因为动态股票关系受到多种因素的影响,例如宏观经济、行业关系、公司管理和投资者的看法。另一方面,也有基于wiki或行业关系的侧信息方法(Feng et al. 2018;Sawhneyet al. 2021)捕捉股票关系。然而,这些方法将股票关系表示为静态图形,因此很难适应不断变化的市场。基于以上分析,股票关系的有效建模需要由包含多种影响因素的动态信息驱动。幸运的是,从先前的研究中获得灵感(Qin and Yang 2019;Medya et al. 2022)利用财报电话会议的丰富语义信息来增强财务预测,我们探索利用财报电话会议建模股票关系的潜力。
动机示例:以2017年7月 亚马逊和微软的两次财报电话会议为例,我们首先 绘制了亚马逊和微软 在7月27日亚马逊财报电话会议后的股价走势,以及 两次财报电话会议的主要内容如图1所示。然后,我们从这两只股票的财报电话会议中绘制了一张图表。从图1中,我们得出以下三个观察结果。
首先,在亚马逊公布财报电话会议之后,这次财报电话会议对亚马逊股票走势的影响持续了数周,导致股价波动下跌。这一观察结果与文献中广泛记录的收益公告漂移(PEAD)现象(Qin and Yang 2019)一致。其次,两个财报电话会议共享了大量重叠的主题和实体,这些主题和实体表示股票特征,例如,行业和商业,这表明财报电话会议中的丰富语义有可能反映复杂的股票关系。第三,亚马逊和微软的股价经历了类似的下跌趋势,这表明股票关系能够通过捕获相关股票之间有价值的丰富的运动信号来增强预测模型。
在本文中,受上述现象 的启发,我们提出了 一个财报电话会议驱动的异构图学习 模型ECHO-GL来模拟 财报电话会议驱动的异构动态图(称为 E-Graph)中的复杂股票关系,以增强股票走势预测。我们的 模型过程遵循三个步骤:(1)构建基于收益电话的E-Graph ,以揭示潜在的股票关系;(2)利用异构图学习模块 学习E-Graph上聚合有用运动信号的股票表示;
然而,与上述 三个步骤相对应的三个挑战使得实现ECHO-GL变得非常重要。
挑战一:如何构建E-Graph?由于市场的非平稳性,过时的数据无法捕捉 最新的市场动态。为了解决挑战一,我们 设计了两种新的机制:时间分配机制和滑动窗口机制。具体来说,我们 应用时间分配机制为所有节点和边分配时间属性,旨在保持异构图的 动态特性。我们设计了一个 滑动窗口机制来过滤E-Graph中最新的相关 信息,以参与股票关系 建模。
挑战二:如何在E-Graph中捕捉种群的空间依赖关系?E-Graph包含了多种异构信息,即财报电话、主题和实体,这些信息形成了复杂的关系,共同反映了股票之间的空间依赖关系。为了解决挑战II,我们在ECHO-GL中提出了一种新的库存空间关系模块,该模块为E-Graph中的每个节点类型和边缘类型保留不同的特征空间,并基于注意机制进行交叉类型特征聚合。此外,考虑到财报电话会议中的多模态信息,在聚合过程中,我们引入音频特征来调整每个文本句子对股票的影响。
挑战三:如何建立股票的时间依赖性模型?根据PEAD现象,在 的收益电话公告之后,股票 的走势并不完全是随机的。为了解决挑战三, 我们在财报电话会议后的股票动态模块中设计了一个可学习的随机过程,用于从E-Graph中学习的股票表示 。财报电话会议后的股票动态模块可以捕捉股票价格变化的影响下的盈利电话在任何近期的未来,促进在多个时间范围内的股票走势预测。
我们的主要贡献如下:(1)这是文献中首次对财报电话会议衍生的股票关系进行建模,该模型基于财报电话会议丰富的语义信息深入捕捉了动态股票关系;(2)我们提出了一个多模态异构图(E-Graph)构建的ECHO-GL模型,利用股票空间关系模块和收益后股票动态模块两个特定模块来捕捉股票受收益通知影响的时空关系,并将 PEAD对股票走势的潜在影响作为一个随机过程建模,从而促进了多时间范围内的股票走势预测;(3)我们在两个真实数据集上进行了大量的实验,验证了ECHO-GL在股票价格走势预测任务上的有效性,并且具有较高的准确性和交易盈利能力。
相关的工作
图学习在股票预测中的应用
图学习已经成为金融预测任务中的一个关键领域,它涉及将股票关系纳入学习过程以实现改进的性能。之前已经从风险角度基于历史价格创建了股票关系图(Fan,Han, and Liu 2014;柯、廉、张2020)。最近,越来越多的研究关注图学习基于集成丰富的附加信息,如行业关系(Feng et al. 2018;Sawhney et al. 2021)和媒体评论(Wang et al. 2022)。这些研究旨在学习更全面的表征来增强库存预测。有一项研究(Medya et al. 2022)与我们的方法密切相关,该方法基于收益电话构建图表。然而,它只构建了个别收益电话会议记录的图表,而没有考虑不同收益电话会议和股票关系之间的相互联系。
股票预测中的收益电话会议
鉴于金融环境的快速发展,市场辅助信息,如新闻、分析师报告、社交媒体和金融电话会议,提供了无处不在、快速发展的非结构化金融数据。最近,一种更有前途的方法通过在财务决策期间利用收益电话会议中的语义信息(Keith and Stent 2019)显示出更好的结果。在之后,大量的方法专注于将多模态文本音频信息融合到财报电话会议中,用于财务多任务预测(Qin and Yang 2019;Yang等,2020,2022;Sawhney et al. 2020b)。此外,Medya等人(Medya et al. 2022)提出了基于的门状GNN (Li et al. 2015)的STOCKGNN方法,以捕获收益电话会议的语义特征。但是,目前还没有研究基于业绩电话会议的股票之间的关系。
方法
图2:我们的模型ECHO-GL的网络架构。
我们考虑基于盈利电话会议的财务预测,指的是在盈利电话会议宣布后的多个时间范围内预测股票走势。
我们考虑是一个有N只股票的市场。设ps,t表示股票s在第t天的收盘价,ps,∆t表示股票s在∆t期间的价格序列,其中∆t表示从第t - τ + 1天到第t天,,τ为窗口大小。对于每只股票,有K个已经宣布的收益电话会议。设Cs = {c1 s,…, cK s}表示股票s对应的所有催收通知集合,C = SN s= 1cs表示所有股票的催收通知。以下(秦和杨2019;Li et al. 2020a),每个c∈c被分割成一组音频片段Ac = {a1 c,…, aM c}对于i∈[1,M], M为句子号。学习呼叫c对应的文档级成绩单记为Dc = {d1 c,…, dM c}, di c为文本第i个句子。
ECHO-GL的架构如图2所示。在下面的章节中,我们首先阐述了如何构建一个来自财报电话会议(E-Graph)的异构图,它充分利用了财报电话会议中股票之间的语义关系(以解决挑战I)。我们然后提出了ECHO-GL的两个关键模块,即股票空间关系模块和财报电话会议后股票动态模块,以捕获E-Graph中的空间和时间依赖性(以解决挑战II和III) 最后,我们详细阐述了如何预测股票走势和训练ECHO-GL。
异质股票图结构建造
首先,用四元组G = (V, E, RV, RE)表示E- graph,其中V为节点集,E为边集,RV 为节点类型集,RE为边类型集。
时间分配机制
时间在动态E-Graph中起着重要的作用;但是,有一些节点和边没有时间属性。因此,我们设计了一种时间分配机制,可以将最近一次财报电话会议的公告时间分配给所有相关的异构节点和边。如算法1的2、6、15和18行所示,当某只股票s的新财报电话会议cs被宣布时,我们将其对应的股价节点及其所有文本句子节点添加到E-Graph中,并将cs的公告时间分配给这些节点作为时间属性。对于与cs的文本节点相关联的主题和实体,我们添加了当前E- graph中不存在的新O和E节点。接下来,我们更新与cs的文本句子节点相关的所有输入O和E的节点的时间属性,以匹配财报电话会议cs的公告时间。接下来,我们将P, S,O和E节点之间的边添加到E- graph中,并更新所有边的时间属性。
滑动窗机构
为了适应 不断变化的市场,我们设计了一个滑动窗口机制(参见算法1中的第16-17行)来过滤 最新的股票关系。请注意,我们将窗口 大小设置为目标股票连续两次收益通知的公告时间间隔。每当一个过时的财报电话滑出窗口时,其所有P和S节点(其连接边为 )都将从E-Graph中消除。
库存空间关系模块
在E-Graph中,具有异构信息的各种类型的节点共存。考虑到图的异质性,并保留每个节点类型的特定领域知识,我们设计了一个基于异构图注意力的神经网络(HGAN),用于学习包含E-Graph中各种类型关系信息的增强库存表示。股票空间关系模块由L层HGAN叠加而成,目标节点类型为股票价格§。HGAN遵循 消息传递体系结构,该体系结构包括两个组件,即消息传递和聚合。
异构边缘类型消息传递
给定E-Graph中的 目标节点n及其所有邻居节点v∈n (n),为了确保消息在不同邻居类型之间有效传播到n,而不受其特征分布间隙的限制,我们设计了一种edge - type-wise消息传递策略。具体来说,对于第l层的边 e = (n, v),我们计算从节点v到节点n的多头消息如下:
音频引导的注意聚合
我们设计了一种异构节点级关注机制,用于在E-Graph上聚合 消息。对于节点n,我们将其映射到查询向量,将其邻居节点v映射到关键向量,并为每个关系e = (n, v)传播h头交叉注意。为了解决节点的异质性,对于第i个注意头,每个节点类型都有一个唯一的线性投影。
财报电话会议后股票动态模块
在财报电话会议后的股票动态模块中,ECHO-GL 从初始股票表示hs,t在财报电话会议的公告时间t上传播动态,以推断整个股票表示轨迹hs,t:t+w 在任何预测时间范围w内。对于目标股票s,我们将其股价节点表示从股票空间关系模块中得到作为初始股票表示在财报公告时间。
预测和优化
我们使用交叉熵损失优化ECHO-GL为:
式中 Y L Y_L YL为具有 标签的股价节点指数集合, y s , t + w y_{s,t+w} ys,t+w为预测日 目标股票s的走势实值默认标签, y ^ s , t + w \hat{y}_{s,t+w} y^s,t+w为预测的 走势标签。
实验
在本节中,我们提出了广泛的实验来回答 以下问题:Q1: ECHO-GL如何执行 预测股票走势?Q2:关键部件对ECHO-GL的性能有何影响?Q3: ECHO-GL的真实交易盈利能力如何?
我们在两个真实世界的数据集上进行了广泛的实验,即秦的(Qin and Yang 2019)和MAEC (Li et al. 2020a)数据集,其中分别包含了来自美国证券交易所S&P500和S&P 1500公司的财报电话会议的文本记录和音频记录。我们从雅虎财经收集股息调整后的收盘价。根据之前的研究(Qin and Yang2019;Yang et al. 2020),我们按时间顺序按7:1:2的比例将数据集分成互斥的训练/验证/测试集。数据集的统计数据如表1 所示。
为了回答第一个问题,我们比较了ECHO-GL和所有基准在1、3、7、15和30天时间范围内的股票运动预测任务的表现(见表2)。总体而言,ECHO-GL在两个数据集上的不同时间范围预测任务中始终实现最佳性能,在最佳表现基线上F1得分和MCC平均提高2.297%和15.629%。分别与三类基线进行比较,得出以下三点结论。首先,ECHO-GL优于仅依赖历史价格的基于价格的方法,表明侧信息提供了丰富的运动信号,以增强股票预测。其次,与基于图表的基线相比,通过利用财报电话会议中丰富的信息,ECHO-GL能够捕获更全面的股票时空关系,从而获得更好的业绩。第三,ECHO-GL优于所有基于财报电话会议的基线,这表明它不仅能够在财报电话会议中建模丰富的语义,而且能够根据来自财报电话会议的股票关系有效捕获相关股票之间有意义的运动信号。此外,由于 PEAD现象的存在,传统的财报电话会议方法无法有效地描述受财报电话会议影响的股票随时间变化的特征,导致其表现不佳。
消融研究 (for Q2)
为了回答Q2,我们进行了以下消融实验,以分析基于财报电话会议的异构图和ECHO-GL的两个关键组成部分的贡献。不同股票关系图的影响。我们评估了不同的图构造方法在股票关系建模中的有效性。如图3 (a)和©所示,我们考虑了带有E-Graph和的ECHO-GL四种图形变体,即价格图、wiki图、E-Graph-w/ o-E和E-Graph-w/o-O。具体来说,价格图是基于股票价格协方差矩阵构造的。通过结合部门-行业关系和wiki关系构建wiki图。E-Graph-w/o-E和E-Graph-w/o-O分别是E-Graph无实体节点和主题节点的变体。从图3 (a)和©中,我们可以得出以下两个结论。一方面,采用基于收益呼叫的异构图的模型比价格图和wiki图取得了显著的改进。
模拟交易 (for Q3)
为了回答第三个问题,我们从2017年10月24日至2018年2月2日进行了真实交易模拟,采用基于ECHO-GL股票走势预测结果的w天策略。如果预测股价从第t天上涨到第t + w天,w日策略决定在 t天买入股票,然后在第t + w天卖出;否则,卖空股票并持有空头头寸至第t + w天。我们以标准普尔500指数为基准,分别在[1,3,7,15,30]中以w进行5次w日策略。图4显示了模拟交易利润($)和年度夏普比率(SR) (Sharpe 1998) 。结果表明,基于ECHO-GL预测结果的交易策略可以有效地帮助投资者在所有时间范围内获得正收益。而且,ECHO-GL实现的年度SR显著超过标准普尔500指数,证明了ECHO-GL在瞬息万变的股市中稳定且可靠的盈利能力。
结论
在本文中,我们提出了一种新的ECHO-GL模型,该模型不仅捕获了收益电话驱动的动态异构图上相关股票之间的复杂运动信号,而且还构建了可学习的随机过程,以生成不同预测范围内的股票表示轨迹。大量的实验证明了ECHO-GL在股票走势预测和交易盈利能力方面的优势。考虑到E-Graph的有效性,我们打算在未来的工作中进一步挖掘E-Graph在实际应用中的潜力,以满足不同的投资需求。