AAPM：基于大型语言模型代理的资产定价模型，夏普比率提高9.6%

“AAPM: Large Language Model Agent-based Asset Pricing Models”

论文地址：https://arxiv.org/pdf/2409.17266v1

Github地址：https://github.com/chengjunyan1/AAPM

摘要

这篇文章介绍了一种利用LLM代理的资产定价模型（AAPM），该模型融合了定性的投资分析与定量的金融经济参数，以预测超出常规的资产收益。实验结果表明，相较于传统的机器学习基准，这种方法在优化投资组合和减少资产定价误差方面表现更优，具体表现为夏普比率和异常投资组合的平均绝对阿尔法值（|α|）分别提升了9.6%和10.8%。

简介

金融资产定价对资本的有效配置至关重要，传统方法通常基于宏观经济状况和公司特定因素来预测超额收益，但这些方法受到有效市场假说的质疑。在投资决策中，语言数据扮演着关键角色，因为它承载了社会和市场的信息流动，同时，主观的投资管理依旧占有重要地位。定性分析能够提供那些经济指标和市场数据未能揭示的定价见解，然而，现有的自然语言处理技术未能完全掌握此类洞察。将语言信息与定量模型相结合的挑战在于需要具备金融推理能力和追踪长期事件的记忆能力，不恰当的模型设计可能会引入噪音。

本文介绍了一种基于LLM代理的资产定价模型（AAPM），它整合了定性投资分析与定量因子策略的优点。通过解读最新的新闻报道和历史研究报告，LLM代理能够编写分析报告以预估未来的超额资产收益。实验结果表明，AAPM实现了夏普比率9.6%的增长以及资产定价误差平均|α| 10.8%的改善。该研究的主要贡献在于：开发了LLM代理架构、提出了一种混合资产定价框架，并进行了详尽的实验评估。

01相关工作

证券资产定价

资产定价的核心在于确定金融资产的公正价值。1964年，Sharpe提出的资本资产定价模型（CAPM）将资产预期回报视为市场回报的一个线性函数。随后，Merton在1973年的研究中引入了财富作为状态变量，Lucas Jr于1978年考虑了消费风险对定价的影响。CAPM从单因子模型发展为多因子框架，Fama和French在1992年提出了三因子模型，并于2015年扩展至五因子模型。此外，Carhart在1997年增加了动量因子，而Ross于1976年提出不考虑套利机会的套利定价理论（APT）。随机贴现因子（SDF）通过随机定价核计算未来现金流的现值，这一方法由Cochrane在2009年详细阐述。这些理论和模型的发展共同推动了资产定价领域的进步。

金融机器学习

机器学习技术被用于探索“因子动物园”中的非线性相互作用（Feng等人，2020）。Kelly等人（2020）提出了工具主成分分析（IPCA）以估计潜在因子及其负载。Gu等人（2020）则采用深度神经网络来模拟这些复杂的相互作用。进一步地，Gu等人（2021）引入了条件自编码器，将潜在因子和资产特征作为协变量纳入考量。Chen等人（2024）利用生成对抗网络训练神经SDF来改进模型。Bybee等人（2021）通过分析《华尔街日报》评估经济状态，而Bybee等人（2023）建议利用LDA分析新闻主题作为定价因素。近期的NLP方法（Xu和Cohen, 2018；Xie等人, 2022）被应用于预测股票动向，但未能明确解释超额收益的因素。相比之下，我们的基于LLM的方法通过深入分析报告提供了一种替代性的解释途径。

大型语言模型代理

LLM代理擅长推理、规划和工具使用，其核心机制为提示编程。

提示策略包括：
- 链式思考（Chain-of-Thoughts, CoT）：通过逐步推理解决问题。
- ReAct提示：根据先前结果优化输出，并能调用外部工具增强功能。
记忆对LLM代理至关重要：
- 数据库作为符号记忆存储信息。
- 对话则保存在长短期记忆中，便于处理和回顾。

Cheng和Chin（2024）开发的代理能够基于输入的信息和知识库做出投资决策。该代理结合了定性和定量资产定价方法，提高了投资决策的质量。

02方法

给定状态向量V ta，用于预测资产a在时间点t的超额收益r ta，该过程基于市场、社会和资产的状态信息。传统因子模型依赖手动挑选的经济指标和市场数据来构建这个状态向量V ta。

Bybee等人（2021, 2023）的研究表明，商业新闻可以作为宏观经济状况的替代表达方式，并提出利用LDA从新闻中提取特征以作为定价预测因子。通过使用分析报告的平均嵌入来代表社会、经济和市场的状态。尽管主要媒体的商业新闻提供了关键的市场见解，但这类信息通常需要读者自行解读并进行额外分析。值得注意的是，商业事件之间相互关联，特别是长期事件如美联储加息、新冠疫情以及通胀担忧等，对市场有着显著影响。这些因素共同作用，为理解和预测市场动态提供了更加全面的视角。

本文介绍了AAPM，它利用具备长期记忆功能的LLM代理来分析新闻并生成分析报告。然后，将这些定性分析报告与手动挑选的定量因子结合，一并输入到混合资产定价网络中。这样一来，通过整合定性和定量的方法，提高了资产定价的准确性。

使用LLM代理进行分析

代理通过分析最新的新闻和由GPT-3.5-Turbo1106初始化的宏观经济笔记来生成分析报告，提供必要的宏观经济背景。每次生成报告后，笔记都会更新，记录新的投资想法和市场趋势，确保信息的实时更新且不泄露给第三方。数据集从知识截止日期之后开始收集，确保整合了最新信息。

首先生成简洁的新闻摘要x' t以控制输入长度和格式，并将其与笔记n t结合形成输入I t。代理评估新闻是否含有投资相关信息，若无相关内容则跳过；若有，则创建初步分析报告R t0。此报告随后经过N轮迭代优化，每轮优化过程中都会查询外部记忆M t以获取信息支持。使用BGE嵌入模型将文本转换为向量进行查询，找到最相关的K条记录。每轮迭代中生成的报告R ti都更加精确，最终的报告R t不仅更新了笔记n t'，还会被添加到记忆M t'中。最后，定价网络利用所有经过筛选的新闻分析报告来进行资产定价。

混合资产定价网络

利用嵌入模型将PN报告转换为嵌入形式，并计算每日平均嵌入以反映经济市场状况。采用滑动窗口技术生成平滑的每日嵌入，通过指数衰减核对最近几天的嵌入进行加权处理。接着，将这种平滑状态与手动挑选的金融经济因素向量结合，形成混合状态。对于特定资产，其混合状态是通过查找该资产的嵌入并与下采样的混合状态连接来获得的。

预测次日超额收益时使用一个多层全连接预测网络，训练的目标是最小化预测收益与实际收益之间的均方误差。在模型训练初期，为了更好地初始化参数，会先使用历史因子数据进行预训练，期间用占位符嵌入代替实际数据。这种方法有助于提高模型的准确性和稳定性。

03实验

实验设置

数据集涵盖了从2021年9月29日至2023年9月29日的《华尔街日报》文章，排除了与旅行、生活方式和谜题无关的内容以避免信息泄露问题。每日资产收益数据来源于CRSP，而风险-free收益和市场收益则取自Kenneth French的数据集。根据Jensen等（2023）的方法构建金融经济因子，并解决了因子更新频率不一致的问题。缺失的数据通过计算截面中位数来填补。

研究采用了前9个月的数据作为训练集，随后3个月的数据作为验证集，最后1年的数据用于测试集。选定了五种近期在顶级金融经济学期刊上提出的资产定价基准模型，这些模型符合当前实证金融的标准。所选模型包括：

NN（Gu等人，2020），利用深度神经网络进行资产定价；
IPCA（Kelly等人，2020），一种识别潜在因子的工具主成分分析方法；
CA（Gu等人，2021），使用条件自编码器；
NF（Bybee等人，2023），通过LDA分析《华尔街日报》新闻作为隐含因子；
CPZ（Chen等人，2024），采用生成对抗网络处理随机贴现因子。

所有选定的模型均按照其原始论文中的配置和因子设置进行了复现，并对每个模型执行了超参数搜索，以便比较它们的最佳性能表现。这种方法确保了不同模型之间的公平对比，并有助于识别出最优模型配置。

投资组合优化

我们通过计算测试投资组合的夏普比率（SR），公式为

评估风险调整后的表现。同时通过最大回撤（MDD）来衡量潜在的风险损失公式为

实验中采用了三种不同的投资组合构建策略：

切点投资组合（TP），它根据预测的超额收益来决定资产权重，适用于理想化的无交易成本市场；
长短头寸十位组合，即买入预期收益最高的前十名资产并卖空后十名；
资产加权方式：“等权重”（EW）和“市值加权”（VW）。

结果显示，我们的方法在所有三种投资组合中均实现了最高的夏普比率，分别提升了6.8%、8.9%和13.2%，平均提升达到了9.6%。在切点投资组合（TP）和等权重（EW）组合中，我们的方法也取得了最优或次优的最大回撤成绩，分别改善了2.9%和2.3%。对于市值加权（VW）组合，其最大回撤比最佳基准模型CA减少了10.9%。此外，将模型从GPT-3.5升级到GPT-4-0613后，夏普比率进一步提高了8.5%、13.6%和16.2%，而在最大回撤方面，改进分别为1.3%和3.5%，但有一个例外情况下降了-2.4%。这表明更新的模型版本能够更有效地提升投资组合的表现。

资产定价误差

采用Bybee等人（2023）的方法，我们分析了78个异常投资组合的资产定价误差，这些组合是根据78种不同的特征构建的。为了处理各组合间收益的差异，我们计算了平均绝对阿尔法（avg.|α|），并通过归一化进行了调整。

在统计显著性方面，我们计算了平均t值以及t值超过1.96的比例，并进行了Gibbons、Ross和Shanken（GRS）检验。结果显示，我们的方法表现优异：相较于CPZ模型，使用GPT-3.5和GPT-4分别降低了平均|α|达10.8%和13.5%，同时t值提高了1.6%和3.3%。与IPCA相比，GRS检验的结果也提升了0.6%和1.6%。

对十分位组合进行定价的结果表明，各分位组合的超额收益排名清晰，这证明了我们的方法在预测收益方面的有效性。这种方法能够准确识别不同分位组合中的超额收益，显示出其在资产定价中的应用潜力。

消融分析

进行消融研究以评估各个模块对代理设计的影响，通过检验各模块的性能来分析架构的深度和宽度。研究从一个“简单”代理开始，该代理直接根据精炼新闻生成分析报告，其定价网络仅使用每日嵌入作为输入。随后逐步添加更多组件，每一步都构建出一个更强大的基线模型，直至最终实现我们提出的完整方法。这种方法允许详细考察每个新增组件所带来的改进，确保整体设计的有效性。

代理体系结构设计

与NF基线（基于33年《华尔街日报》新闻数据）相比，我们的模型仅使用2年的新闻数据。
“简单”基线的夏普比率（SR）提高了2.2%，且定价误差与NF基线相当。
引入外部记忆后，SR进一步提升了4.3%，平均绝对阿尔法（avg.|α|）降低了5.7%，强调了上下文信息的重要性。
资产嵌入的加入使SR增加了2.1%，avg.|α|减少了2.3%。
构建的“Memory”基线相较于“简单”基线，SR提高了6.0%，avg.|α|降低了8.0%。
手动因素的引入使SR轻微上升1.3%，avg.|α|减少2.5%；然而，NF在添加手动因素后的表现有所下降。
“Hybrid”基线通过结合手动因素和LLM生成的报告，实现了SR提升5.0%，avg.|α|降低9.9%，展示了两者间的协同效应。
最终，通过迭代优化，“Hybrid”基线的SR再次提升了4.8%，avg.|α|减少了9.6%，验证了代理架构设计的有效性。

分析深度和宽度

分析的深度通过迭代次数N来控制，而宽度则取决于每次检索的相关信息量K。实验结果显示，增加迭代轮次和相关信息量总体上是有益的，但在K × N = 15之后，边际收益显著减少，表明此时已获取足够的信息。在极端情况下，当N=1且K=15时，夏普比率（SR）降至3.12，这说明迭代精炼是必要的。不同轮次的检索能够提供多样化的信息，而单次检索可能导致信息过于集中于某些主题，额外的信息价值迅速下降，并可能引入噪声。因此，适当的迭代和检索策略对于提高模型性能至关重要。

04总结

AAPM模型融合了LLM代理的定性分析和资产定价的定量因素。在投资组合优化和资产定价误差等多方面的评估中，AAPM表现超越了传统的资产定价方法。研究深入分析了代理设计的各个组件，目的在于加深对自由裁量投资与定量因子模型之间相互作用的理解，从而推动经济效率的提升。此方法论的改进有助于更好地结合主观投资判断与客观量化分析，为市场提供更精确的价格发现机制。