时间关系推理：利用大型语言模型检测股票投资组合崩溃

“Temporal Relational Reasoning of Large Language Models for Detecting Stock Portfolio Crashes”

论文地址：https://arxiv.org/pdf/2410.17266

摘要

当股票投资组合遭遇如2007年金融危机或2020年因COVID-19导致的股市暴跌这样的罕见事件时，传统的基于历史数据的学习方法可能无法充分应对。大语言模型（LLMs）由于其广泛的训练数据背景，能够执行零样本推理，为识别潜在的投资组合危机提供帮助。为了有效预测此类危机，需要一个可以实时处理新闻资讯、分析事件对股票影响并理解时间序列上下文的系统。

本文介绍了一种名为“时间关系推理”（TRR）的新算法框架，该框架旨在模仿人类解决复杂问题的认知过程。研究结果表明，TRR在预测投资组合崩盘方面表现得比当前其他方案更为出色，并且通过一系列消融实验明确了各个组成部分的重要性。TRR不仅适用于股票市场，还可以推广到宏观经济学领域，用于检测全球性的经济危机事件。

简介

投资者通常通过构建多样化的股票组合来分散风险，选择不同行业和类型的股票以减少特定事件对投资的影响。然而，在遭遇罕见的尾部风险事件（例如2007年的金融危机或2020年COVID-19引发的股市崩盘）时，市场间的关联性会增强，使得传统的投资组合在应对这些极端情况时显得准备不足。目前，关于如何有效检测此类投资组合危机的研究仍然有限。

大型语言模型（LLMs）因其能够进行零样本推理，可以识别新出现事件中的模式，从而提前发出潜在市场崩溃的预警，这为解决上述问题提供了新的思路。但是，现有的推理框架如ToT、GoT和ToG往往侧重于解决单一问题，并未能动态地处理随时间变化的新闻信息。此外，当投资组合因股票之间意外形成的联系而崩溃时，这些框架缺乏跨多个路径进行推理的能力，无法揭示新闻事件与股票之间的复杂关系。同时，由于股票预测依赖于时间上下文，而现有的时间图研究大多只关注单个图的问答，忽略了多时段的多图信息整合。

为此，本文介绍了一种名为“时间关系推理”（TRR）的新算法框架，该框架旨在模仿人类处理复杂问题的认知过程。TRR能够动态创建影响链，分析金融新闻对股票组合的影响，并通过一个时间“记忆库”检索相关的历史事件。它使用PageRank算法筛选出重要的影响链，进而建立时间关系图，以推断可能的市场崩盘。实验结果显示，TRR在预测投资组合崩溃方面优于深度学习模型和其他LLM。通过消融研究，我们验证了TRR各组件的重要性，并探讨了其在宏观经济危机预测上的应用潜力。

本文还讨论了LLM在处理复杂问题时的局限性，并提出了基于自动生成图的LLM推理解决方案，进行了涵盖多种组合和时间段的广泛实验，以提升对投资组合及宏观经济危机的预测能力。

01 相关工作

早期的研究通过使用(Actor, Action, Object, Timestamp)这样的元组来学习股票的嵌入表示，这些方法主要基于预定义的规则，并未利用大型语言模型（LLM）。随后的研究转向了图方法，借助知识图谱（如Freebase和Wikidata）来学习股票实体的嵌入，但这些研究往往忽略了关系随时间的动态变化。最新的研究则开始利用LLM从新闻报道中推断出股票之间的关系，生成动态的关系数据，并结合图神经网络来进行股票预测。

本研究聚焦于开发零样本推理框架，旨在检测由前所未有的事件引发的股票市场崩盘。LLM的零样本推理能力来自于其对广泛知识的泛化能力，研究人员提出了多种框架来应对复杂的任务。为了增强LLM的可靠性，本研究不仅利用知识图谱中的信息，还特别关注从中提取影响子图，以更深入地理解市场状况并有效检测潜在的崩盘事件。这种方法超越了传统的问答形式，而是专注于揭示和分析可能影响市场的关键因素。

02 时间关系推理

TRR框架旨在模拟人类解决复杂问题的思维过程，通过四个关键阶段来预测投资组合是否会在次日崩溃。以下是各阶段的详细描述：

头脑风暴阶段：

- 生成与影响实体相关的子图，捕捉可能的影响路径。
- 识别新闻文章中的关键事件和参与者，构建初步的影响网络。

记忆阶段：

检索历史上相似的影响链，为当前情境提供参考。
利用时间“记忆库”寻找过往类似事件及其对市场的后续影响，辅助当前分析。

注意阶段：

识别并提取最重要的影响链，构建新的子图以突出关键信息。
使用算法（如PageRank）筛选出最具影响力的因素，确保分析聚焦于最相关的信息。

推理阶段：

基于构建的子图进行深度分析，判断投资组合是否会在接下来的一天内面临崩溃风险。
输出二元预测结果，明确指示投资组合在次日是否存在崩盘的风险。

最终目标是通过每日新闻文章的分析，提前预测投资组合在次日是否存在崩盘的风险，提供明确的预警信号。

头脑风暴

为了评估新闻事件如何影响投资组合，我们可以建立一个有向图模型 G = (V, E)，其中 V 包括新闻报道、相关受影响的实体以及投资组合中的股票。我们可以通过逐步引导大型语言模型（LLM）来识别那些可能被新闻影响的实体，这一过程将持续进行，直到我们找到与股票直接相关的影响路径或达到预设的最大查询次数。在构建此图的过程中，相同的实体将被合并为一个节点，而影响路径则从最初的新闻报道出发，经过一系列中间实体，最终抵达投资组合中的具体股票。

请注意，虽然这种方法可以帮助理解新闻事件对投资的潜在影响，但实际的投资决策应当基于全面的研究和分析，并考虑到所有相关信息和风险。投资市场充满不确定性，因此建议投资者根据个人情况做出审慎判断，并在必要时咨询专业的财务顾问。同时，务必确保信息来源的可靠性，警惕各种形式的投资欺诈。

记忆

TRR框架包含一个记忆模块 M，用于存储受影响子实体的历史影响链。每天，系统会针对每个受影响的实体查询记忆模块 M，以更新每日的图 G，并构建一个包含时间上下文的时间图 G_temporal。在每一天结束时，记忆模块 M 会根据当天的新信息进行更新，以便在未来使用这些影响链。此外，为了模拟记忆的自然衰减，系统采用指数衰减模型，并通过变量 R_u,v 来评估特定影响在市场中的持续相关性。

这种方法确保了系统不仅能够捕捉当前事件的影响，还能结合历史数据，动态调整影响链的重要性，从而更准确地预测市场变化。

注意

由于时间图 G_temporal 规模过大，难以直接在 LLM 中处理，因此需要保持一个精简的关系图来传达关键信息。考虑到投资者每天能够处理的信息量有限，系统专注于筛选出最重要的信息。为此，我们使用 PageRank 算法为影响链中的每个实体分配一个排名分数，并通过迭代传递这些分数直到收敛。排名分数会根据记忆保留的权重进行调整，以反映信息的历史重要性。

最终，系统将过滤出排名前 q 的实体，构建一个新的子图 G_T_R_R，该子图集中体现了投资者应重点关注的重要信息。这种方法确保了即使面对大量数据，系统也能有效地提炼出最具影响力的因素，帮助投资者做出更明智的决策。

推理

为了评估投资组合崩溃的风险，我们利用生成的时序关系图 G_TRR。在考量风险时，投资者不仅关注相关新闻的影响，还会分析股票之间的关联性。通过图中的关系元组 (t, z_s, a, z_o) 进行逻辑推理，其中 t 表示时间点，z_s 和 z_o 分别代表主体和客体实体，而 a 则指代两者间的影响方向。

基于投资组合 P 与 G_TRR 中的关系数据，我们可以向 LLM 提供信息，促使其生成关于投资组合可能崩溃的预测。这种方式将新闻动态与市场内部联系相结合，为投资者提供了一个结构化的方法来预估潜在风险。形式化为：

03实验

评估TRR在多个投资组合和时间段的有效性。形成两种多元化投资组合：

国家中性投资组合：每只股票来自不同国家。
行业中性投资组合：每只股票来自不同市场行业。

选择三个重要时间段进行实验：

a. 2007年6-8月（全球金融危机）。
b. 2010年3-5月（希腊政府债务危机）。
c. 2020年1-3月（COVID-19股市崩盘）。

每个时间段为三个月，旨在捕捉稳定期和崩盘期的新闻影响。

数据集和评估指标

我们使用扩展至2020年的Reuters金融新闻数据集，不根据股票或国家进行过滤，让LLM自行评估每篇文章与目标投资组合的相关性。同时，从Yahoo Finance获取成分股的价格数据，计算每日的百分比收益，并通过平均这些收益来确定投资组合的每日表现。

为了标记投资组合的崩溃事件，我们设定了一个阈值（日收益率≤ -2.0%），该阈值对应于整体收益序列的95%分位数。这意味着当投资组合的日收益率低于或等于-2.0%时，即被视为发生了崩溃。这种方法确保了我们能够准确捕捉到市场剧烈波动对投资组合的影响。

由于数据集存在不平衡问题，预测模型可能会表现出高准确率但实际上全是错误的预测。为了解决这一问题，我们采用AUROC（Area Under the Receiver Operating Characteristic Curve）作为评估指标，以更好地捕捉真阳性和假阳性之间的平衡。这种方法能够更全面地评估模型在不同阈值下的性能，确保不仅关注正确预测的数量，还考虑到了预测的准确性。

基线

本研究旨在检测投资组合崩溃的方法，比较了多种零样本大型语言模型（LLM）框架，包括标准输入输出提示、思维链（Chain-of-Thought, CoT）、思维图（Graph-of-Thoughts, GoT）和图上思考（Think-on-Graph, ToG）。此外，我们还与一个非零样本的深度学习模型（Bi-GRU + Attention）进行了对比，该模型是基于过去的路透社新闻数据训练的。

尽管这个深度学习模型拥有特定任务的训练数据，在处理历史数据时可能表现良好，但在面对未曾发生过的事件（如COVID-19大流行）时，其预测能力显得不足。相比之下，零样本LLM框架无需专门的训练数据，能够更灵活地应对新型和罕见事件，展示了在未知情况下的潜在优势。

04 结果

BiGRU + Attention模型的AUROC接近0.5，主要预测结果为False，这主要是因为投资组合崩溃事件极为稀少，导致模型训练过程中偏向于预测False，并且难以有效处理未曾见过的事件。

相比之下，不同思维框架（如标准IO提示、Chain-of-Thought, CoT 和 Graph-of-Thoughts, GoT）的AUROC呈现出上升趋势，表明将崩溃预测任务分解为一系列小的思考步骤有助于提高模型的表现。特别是基于搜索的Think-on-Graph (ToG) 模型超越了其他思维框架，通过识别与投资组合相关的信息路径，显著提升了预测的准确性。

进一步地，TRR框架平均比ToG模型高出10.6%的AUROC，它通过考虑多个相关的影响路径及其相互关系，提供了更加全面的市场力量视角，从而增强了对投资组合崩溃的检测准确性。这种方法不仅捕捉了直接的影响因素，还考虑了更广泛和复杂的市场动态。

消融分析

为了评估TRR模型中各个组件的重要性，我们进行了消融研究，分别去除了关系、时间和记忆衰减组件。

去除关系组件：

在这一设置下，我们采用Think-on-Graph (ToG) 模型的实验结果，该模型不考虑多路径之间的关系。因此，虽然可以识别单个影响路径，但无法捕捉多个路径之间的复杂交互，这可能限制了对投资组合崩溃的全面理解。

去除时间组件：

移除时间组件意味着取消了记忆模块，导致模型缺乏对过去事件的时间上下文理解。没有历史数据的支持，模型难以有效地将当前事件与过去的相似情况联系起来，从而削弱了其预测能力。

去除衰减组件：

当去掉记忆衰减机制时，所有记忆的影响权重保持不变，即不随时间而变化。这意味着无论信息的新旧程度如何，系统都赋予相同的重要性，无法动态调整历史事件的相关性，这可能会降低模型对最新市场动态的敏感度。

通过这些消融实验，我们可以更清楚地了解每个组件对TRR模型性能的具体贡献，并进一步优化模型设计。

实验在2007年的国家中立投资组合数据集上进行。关系和时间组件通过提供额外的路径，增强了LLM的推理能力，帮助模型更有效地提取有用信息。记忆衰减组件的引入进一步提升了AUROC结果，表明模型能够更好地反映历史事件影响随时间的减弱。

这些组件的协同作用使得模型不仅能够捕捉当前事件的影响，还能合理评估过去事件的相关性，从而提高了对投资组合崩溃预测的准确性和可靠性。

参数选择

我们进行了消融研究以优化参数（记忆衰减率）和（关注的顶级实体数量），实验基于2007年国家中性投资组合的数据。表4的结果显示，随着值的增加或减少，AUROC值均出现下降趋势。

当值减小时，记忆保留逐渐趋近于零，导致所有实体的排名分数趋于均匀，模型难以区分重要信息，从而降低了预测性能。相反，当值增大时，记忆保留接近于一，使得排名分数的加权几乎均匀分布，忽略了时间信息的重要性，同样导致AUROC值下降。

通过这一系列的消融研究，我们发现极端的值都不利于模型的表现。最终，我们将设定为1，以在保持历史信息和反映最新市场动态之间找到最佳平衡点。

值决定了LLM在注意力图 \(G_{att}\) 中考虑的顶级实体数量。较小的值会导致信息不足，使得AUROC表现较差且结果一致。随着值的增加，模型能够获取更多相关信息，AUROC性能得到改善，但同时标准差也增大，表明结果的波动性增加。然而，当值过高时，过多的信息和噪声可能会干扰模型，导致AUROC性能再次下降。

这强调了构建注意力子图的重要性，即筛选出最相关的信息而不是直接提供所有数据。通过消融研究，我们发现设定 = 6能够在提供足够信息的同时避免过量噪声，从而优化模型的表现。

图分析

通过生成的可视化图表，展示了不同数据集在市场崩盘期间的影响。图表中节点的大小基于其入边数量，只有入边最多的几个节点被标注了标签。在2007年的数据集中，TRR模型识别出美国住房市场是受影响最严重的领域，这与全球金融危机的背景相吻合。2010年的数据集中，TRR捕捉到了希腊公民和经济受到的重大影响，反映了当时希腊政府债务危机的情况。而在2020年的数据集中，受影响的实体较为分散，主要集中在出口和旅游行业，这体现了COVID-19疫情对全球经济的广泛冲击。

TRR模型自动识别“受影响实体”，无需人工过滤，而是通过排名算法得出各实体的相关性。这种方法确保了模型能够客观地反映每个时期的关键影响因素，为理解市场动态提供了宝贵的洞察。

额外的实验

TRR框架旨在通过分析区域经济网络来预警宏观经济危机，其输出的全球危机概率作为连续警示指标。该框架使用TED利差（当超过0.48基点时即认为是危机）作为危机标签，并结合过去5天的TED数据输入到大型语言模型（LLM）中进行分析。基准模型包括金融压力指数（FSI）、波动率指数（VIX）和收益率曲线等指标；然而，2020年期间，由于关键词与实际状况的相关性不足，FSI的表现不尽如人意。

尽管如此，TRR框架在大多数数据集上的表现优于这些基线模型。特别是在2020年，VIX和收益率曲线显示出特别强的指示作用，但TRR框架依然展示了其实用价值。TRR生成的危机指示器能够在危机初期产生峰值信号，不过它也存在不连续性和产生假警报的风险，因此在应用时需要谨慎处理。

05 总结

本研究探讨了投资组合崩溃检测，提出了TRR框架，能够通过人类认知能力进行零-shot推理，成功检测崩溃事件。TRR在检测投资组合崩溃方面优于现有框架，并可用于宏观经济危机预警指标的开发。

未来研究方向包括：

增强TRR框架组件：
- 进一步扩展TRR的各个组件，特别是增强记忆模块的功能和更新PageRank算法。通过这些改进，可以提升TRR在处理复杂市场动态时的性能和准确性。
结合更多基线指标：
- 研究并整合更多宏观经济指标（如政府债务水平、外贸流动）与TRR框架相结合，以提升预警系统的全面性和可靠性。这将有助于更准确地捕捉经济危机的早期信号，增强预测能力。