AAPM:基于大型语言模型代理的资产定价模型,夏普比率提高9.6%

“AAPM: Large Language Model Agent-based Asset Pricing Models”

论文地址:https://arxiv.org/pdf/2409.17266v1

Github地址:https://github.com/chengjunyan1/AAPM

摘要

这篇文章介绍了一种利用LLM代理的资产定价模型(AAPM),该模型融合了定性的投资分析与定量的金融经济参数,以预测超出常规的资产收益。实验结果表明,相较于传统的机器学习基准,这种方法在优化投资组合和减少资产定价误差方面表现更优,具体表现为夏普比率和异常投资组合的平均绝对阿尔法值(|α|)分别提升了9.6%和10.8%。

简介

金融资产定价对资本的有效配置至关重要,传统方法通常基于宏观经济状况和公司特定因素来预测超额收益,但这些方法受到有效市场假说的质疑。在投资决策中,语言数据扮演着关键角色,因为它承载了社会和市场的信息流动,同时,主观的投资管理依旧占有重要地位。定性分析能够提供那些经济指标和市场数据未能揭示的定价见解,然而,现有的自然语言处理技术未能完全掌握此类洞察。将语言信息与定量模型相结合的挑战在于需要具备金融推理能力和追踪长期事件的记忆能力,不恰当的模型设计可能会引入噪音。

本文介绍了一种基于LLM代理的资产定价模型(AAPM),它整合了定性投资分析与定量因子策略的优点。通过解读最新的新闻报道和历史研究报告,LLM代理能够编写分析报告以预估未来的超额资产收益。实验结果表明,AAPM实现了夏普比率9.6%的增长以及资产定价误差平均|α| 10.8%的改善。该研究的主要贡献在于:开发了LLM代理架构、提出了一种混合资产定价框架,并进行了详尽的实验评估。

01相关工作

证券资产定价

资产定价的核心在于确定金融资产的公正价值。1964年,Sharpe提出的资本资产定价模型(CAPM)将资产预期回报视为市场回报的一个线性函数。随后,Merton在1973年的研究中引入了财富作为状态变量,Lucas Jr于1978年考虑了消费风险对定价的影响。CAPM从单因子模型发展为多因子框架,Fama和French在1992年提出了三因子模型,并于2015年扩展至五因子模型。此外,Carhart在1997年增加了动量因子,而Ross于1976年提出不考虑套利机会的套利定价理论(APT)。随机贴现因子(SDF)通过随机定价核计算未来现金流的现值,这一方法由Cochrane在2009年详细阐述。这些理论和模型的发展共同推动了资产定价领域的进步。

金融机器学习

机器学习技术被用于探索“因子动物园”中的非线性相互作用(Feng等人,2020)。Kelly等人(2020)提出了工具主成分分析(IPCA)以估计潜在因子及其负载。Gu等人(2020)则采用深度神经网络来模拟这些复杂的相互作用。进一步地,Gu等人(2021)引入了条件自编码器,将潜在因子和资产特征作为协变量纳入考量。Chen等人(2024)利用生成对抗网络训练神经SDF来改进模型。Bybee等人(2021)通过分析《华尔街日报》评估经济状态,而Bybee等人(2023)建议利用LDA分析新闻主题作为定价因素。近期的NLP方法(Xu和Cohen, 2018;Xie等人, 2022)被应用于预测股票动向,但未能明确解释超额收益的因素。相比之下,我们的基于LLM的方法通过深入分析报告提供了一种替代性的解释途径。

大型语言模型代理

LLM代理擅长推理、规划和工具使用,其核心机制为提示编程。

  • 提示策略包括:
    • 链式思考(Chain-of-Thoughts, CoT):通过逐步推理解决问题。
    • ReAct提示:根据先前结果优化输出,并能调用外部工具增强功能。
  • 记忆对LLM代理至关重要:
    • 数据库作为符号记忆存储信息。
    • 对话则保存在长短期记忆中,便于处理和回顾。

Cheng和Chin(2024)开发的代理能够基于输入的信息和知识库做出投资决策。该代理结合了定性和定量资产定价方法,提高了投资决策的质量。

02方法

给定状态向量V ta,用于预测资产a在时间点t的超额收益r ta,该过程基于市场、社会和资产的状态信息。传统因子模型依赖手动挑选的经济指标和市场数据来构建这个状态向量V ta。

Bybee等人(2021, 2023)的研究表明,商业新闻可以作为宏观经济状况的替代表达方式,并提出利用LDA从新闻中提取特征以作为定价预测因子。通过使用分析报告的平均嵌入来代表社会、经济和市场的状态。尽管主要媒体的商业新闻提供了关键的市场见解,但这类信息通常需要读者自行解读并进行额外分析。值得注意的是,商业事件之间相互关联,特别是长期事件如美联储加息、新冠疫情以及通胀担忧等,对市场有着显著影响。这些因素共同作用,为理解和预测市场动态提供了更加全面的视角。

本文介绍了AAPM,它利用具备长期记忆功能的LLM代理来分析新闻并生成分析报告。然后,将这些定性分析报告与手动挑选的定量因子结合,一并输入到混合资产定价网络中。这样一来,通过整合定性和定量的方法,提高了资产定价的准确性。

使用LLM代理进行分析

代理通过分析最新的新闻和由GPT-3.5-Turbo1106初始化的宏观经济笔记来生成分析报告,提供必要的宏观经济背景。每次生成报告后,笔记都会更新,记录新的投资想法和市场趋势,确保信息的实时更新且不泄露给第三方。数据集从知识截止日期之后开始收集,确保整合了最新信息。

首先生成简洁的新闻摘要x' t以控制输入长度和格式,并将其与笔记n t结合形成输入I t。代理评估新闻是否含有投资相关信息,若无相关内容则跳过;若有,则创建初步分析报告R t0。此报告随后经过N轮迭代优化,每轮优化过程中都会查询外部记忆M t以获取信息支持。使用BGE嵌入模型将文本转换为向量进行查询,找到最相关的K条记录。每轮迭代中生成的报告R ti都更加精确,最终的报告R t不仅更新了笔记n t',还会被添加到记忆M t'中。最后,定价网络利用所有经过筛选的新闻分析报告来进行资产定价。

混合资产定价网络

利用嵌入模型将PN报告转换为嵌入形式,并计算每日平均嵌入以反映经济市场状况。采用滑动窗口技术生成平滑的每日嵌入,通过指数衰减核对最近几天的嵌入进行加权处理。接着,将这种平滑状态与手动挑选的金融经济因素向量结合,形成混合状态。对于特定资产,其混合状态是通过查找该资产的嵌入并与下采样的混合状态连接来获得的。

预测次日超额收益时使用一个多层全连接预测网络,训练的目标是最小化预测收益与实际收益之间的均方误差。在模型训练初期,为了更好地初始化参数,会先使用历史因子数据进行预训练,期间用占位符嵌入代替实际数据。这种方法有助于提高模型的准确性和稳定性。

03实验

实验设置

数据集涵盖了从2021年9月29日至2023年9月29日的《华尔街日报》文章,排除了与旅行、生活方式和谜题无关的内容以避免信息泄露问题。每日资产收益数据来源于CRSP,而风险-free收益和市场收益则取自Kenneth French的数据集。根据Jensen等(2023)的方法构建金融经济因子,并解决了因子更新频率不一致的问题。缺失的数据通过计算截面中位数来填补。

研究采用了前9个月的数据作为训练集,随后3个月的数据作为验证集,最后1年的数据用于测试集。选定了五种近期在顶级金融经济学期刊上提出的资产定价基准模型,这些模型符合当前实证金融的标准。所选模型包括:

  • NN(Gu等人,2020),利用深度神经网络进行资产定价;
  • IPCA(Kelly等人,2020),一种识别潜在因子的工具主成分分析方法;
  • CA(Gu等人,2021),使用条件自编码器;
  • NF(Bybee等人,2023),通过LDA分析《华尔街日报》新闻作为隐含因子;
  • CPZ(Chen等人,2024),采用生成对抗网络处理随机贴现因子。

所有选定的模型均按照其原始论文中的配置和因子设置进行了复现,并对每个模型执行了超参数搜索,以便比较它们的最佳性能表现。这种方法确保了不同模型之间的公平对比,并有助于识别出最优模型配置。

投资组合优化

我们通过计算测试投资组合的夏普比率(SR),公式为

评估风险调整后的表现。同时通过最大回撤(MDD)来衡量潜在的风险损失公式为

实验中采用了三种不同的投资组合构建策略:

  • 切点投资组合(TP),它根据预测的超额收益来决定资产权重,适用于理想化的无交易成本市场;
  • 长短头寸十位组合,即买入预期收益最高的前十名资产并卖空后十名;
  • 资产加权方式:“等权重”(EW)和“市值加权”(VW)。

结果显示,我们的方法在所有三种投资组合中均实现了最高的夏普比率,分别提升了6.8%、8.9%和13.2%,平均提升达到了9.6%。在切点投资组合(TP)和等权重(EW)组合中,我们的方法也取得了最优或次优的最大回撤成绩,分别改善了2.9%和2.3%。对于市值加权(VW)组合,其最大回撤比最佳基准模型CA减少了10.9%。此外,将模型从GPT-3.5升级到GPT-4-0613后,夏普比率进一步提高了8.5%、13.6%和16.2%,而在最大回撤方面,改进分别为1.3%和3.5%,但有一个例外情况下降了-2.4%。这表明更新的模型版本能够更有效地提升投资组合的表现。

资产定价误差

采用Bybee等人(2023)的方法,我们分析了78个异常投资组合的资产定价误差,这些组合是根据78种不同的特征构建的。为了处理各组合间收益的差异,我们计算了平均绝对阿尔法(avg.|α|),并通过归一化进行了调整。

统计显著性方面,我们计算了平均t值以及t值超过1.96的比例,并进行了Gibbons、Ross和Shanken(GRS)检验。结果显示,我们的方法表现优异:相较于CPZ模型,使用GPT-3.5和GPT-4分别降低了平均|α|达10.8%和13.5%,同时t值提高了1.6%和3.3%。与IPCA相比,GRS检验的结果也提升了0.6%和1.6%。

对十分位组合进行定价的结果表明,各分位组合的超额收益排名清晰,这证明了我们的方法在预测收益方面的有效性。这种方法能够准确识别不同分位组合中的超额收益,显示出其在资产定价中的应用潜力。

消融分析

进行消融研究以评估各个模块对代理设计的影响,通过检验各模块的性能来分析架构的深度和宽度。研究从一个“简单”代理开始,该代理直接根据精炼新闻生成分析报告,其定价网络仅使用每日嵌入作为输入。随后逐步添加更多组件,每一步都构建出一个更强大的基线模型,直至最终实现我们提出的完整方法。这种方法允许详细考察每个新增组件所带来的改进,确保整体设计的有效性。

代理体系结构设计

  • 与NF基线(基于33年《华尔街日报》新闻数据)相比,我们的模型仅使用2年的新闻数据。
  • “简单”基线的夏普比率(SR)提高了2.2%,且定价误差与NF基线相当。
  • 引入外部记忆后,SR进一步提升了4.3%,平均绝对阿尔法(avg.|α|)降低了5.7%,强调了上下文信息的重要性。
  • 资产嵌入的加入使SR增加了2.1%,avg.|α|减少了2.3%。
  • 构建的“Memory”基线相较于“简单”基线,SR提高了6.0%,avg.|α|降低了8.0%。
  • 手动因素的引入使SR轻微上升1.3%,avg.|α|减少2.5%;然而,NF在添加手动因素后的表现有所下降。
  • “Hybrid”基线通过结合手动因素和LLM生成的报告,实现了SR提升5.0%,avg.|α|降低9.9%,展示了两者间的协同效应。
  • 最终,通过迭代优化,“Hybrid”基线的SR再次提升了4.8%,avg.|α|减少了9.6%,验证了代理架构设计的有效性。

分析深度和宽度

分析的深度通过迭代次数N来控制,而宽度则取决于每次检索的相关信息量K。实验结果显示,增加迭代轮次和相关信息量总体上是有益的,但在K × N = 15之后,边际收益显著减少,表明此时已获取足够的信息。在极端情况下,当N=1且K=15时,夏普比率(SR)降至3.12,这说明迭代精炼是必要的。不同轮次的检索能够提供多样化的信息,而单次检索可能导致信息过于集中于某些主题,额外的信息价值迅速下降,并可能引入噪声。因此,适当的迭代和检索策略对于提高模型性能至关重要。

04总结

AAPM模型融合了LLM代理的定性分析和资产定价的定量因素。在投资组合优化和资产定价误差等多方面的评估中,AAPM表现超越了传统的资产定价方法。研究深入分析了代理设计的各个组件,目的在于加深对自由裁量投资与定量因子模型之间相互作用的理解,从而推动经济效率的提升。此方法论的改进有助于更好地结合主观投资判断与客观量化分析,为市场提供更精确的价格发现机制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3063.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大疆发布可折叠航拍无人机,仅重249g,支持 4800 万像素拍摄

在以往的无人机使用经历中,携带不便一直是个让人头疼不已的问题。那些体积硕大的无人机,每次出行都像是一场艰难的搬运,塞进车里都费劲,更别提轻松地穿梭在城市街头或是户外探险中了。但就在大家对这些问题习以为常、感到无奈时&a…

无公网IP 实现外网访问本地 Docker 部署 Navidrome

Navidrome 是一款可以在 macOS、Linux、Windows以及 Docker 等平台上运行的跨平台开源音乐服务器应用,它支持传输常见的 MP3、FLAC、WAV等音频格式。允许用户通过 Web 界面或 API 进行音乐库的管理和访问。本文就介绍如何快速在 Linux 系统使用 Docker 进行本地部署…

从 SQL 语句到数据库操作

1. SQL 语句分类 数据定义语言 DDL : 用于定义或修改数据库中的结构,如:创建、修改、删除数据库对象。create、drop alter 数据操作语言 DML : 用于添加、删除、更新数据库中的数据。select、insert alter、drop 数据控制语言 D…

leetcode hot100(2)

11.200.岛屿数量 本题是图论中经典的连通分量问题,可以用bfs/dfs解决。 class Solution {int[][] directions new int[][]{{-1,0},{0,-1},{1,0},{0,1}};public int numIslands(char[][] grid) {boolean visited[][] new boolean[grid.length][grid[0].length];i…

Kafka权威指南(第2版)读书笔记

目录 Kafka生产者——向Kafka写入数据生产者概览创建Kafka生产者bootstrap.serverskey.serializervalue.serializer 发送消息到Kafka同步发送消息异步发送消息 生产者配置client.idacks消息传递时间max.block.msdelivery.timeout.msrequest.timeout.msretries 和retry.backoff.…

虚拟拨号技术(GOIP|VOIP)【基于IP的语音传输转换给不法分子的境外来电披上一层外衣】: Voice over Internet Protocol

文章目录 引言I 虚拟拨号技术(GOIP|VOIP)原理特性:隐蔽性和欺骗性II “GOIP”设备原理主要功能III 基于IP的语音传输 “VOIP” (Voice over Internet Protocol)IV “断卡行动”“断卡行动”目的电信运营商为打击电诈的工作V 知识扩展虚拟号保护隐私虚拟运营商被用于拨打骚扰…

MySQL 事务

目录 一、什么是事务 二、事务的特性 三、事务使用案例 四、事务并发问题 五、设置事务的隔离级别(解决读的问题) 一、什么是事务 MySQL 事务主要用于处理操作量大,复杂度高的数据。比如说,在人员管理系统中,你删除…

基于Oracle与PyQt6的电子病历多模态大模型图形化查询系统编程构建

一、引言 1.1 研究背景阐述 在当今数字化时代,医疗行业正经历着深刻的变革,数字化转型的需求日益迫切。电子病历(EMR)作为医疗信息化的核心,其管理的高效性和数据利用的深度对于提升医疗服务质量、优化临床决策以及推动医学研究具有至关重要的意义。传统的电子病历管理系…

强化学习-蒙特卡洛方法

强化学习-数学理论 强化学习-基本概念强化学习-贝尔曼公式强化学习-贝尔曼最优公式强化学习-值迭代与策略迭代强化学习-蒙特卡洛方法 文章目录 强化学习-数学理论一、蒙特卡洛方法理论(Monte Carlo, MC)二、MC Basic2.1 算法拆解2.2 MC Basic算法 三、MC Exploring Starts3.1 …

Harmony面试模版

1. 自我介绍 看表达能力、沟通能力 面试记录: 2. 进一步挖掘 2.1. 现状 目前是在职还是离职,如果离职,从上一家公司离职的原因 2.2. 项目经验 如果自我介绍工作项目经验讲的不够清楚,可以根据简历上的信息再进一步了解 面试记…

eBay账号安全攻略:巧妙应对风险

在跨境电商的浪潮中,eBay宛如一座璀璨的灯塔,照亮了无数买卖双方的交易之路。但别忘了,网络安全的阴霾也在悄然蔓延,让eBay账号时刻处于黑客攻击、数据泄露、钓鱼诈骗等风险的阴影之下。别担心,今天就来为你支支招&…

浅谈云计算19 | OpenStack管理模块 (上)

OpenStack管理模块(上) 一、操作界面管理架构二、认证管理2.1 定义与作用2.2 认证原理与流程2.2.1 认证机制原理2.2.2 用户认证流程 三、镜像管理3.1 定义与功能3.2 镜像服务架构3.3 工作原理与流程3.3.1 镜像存储原理3.3.2 镜像检索流程 四、计算管理4.…

【Uniapp-Vue3】uni-api交互反馈showToast的使用方法

如果想要显示弹窗,就可以使用showToast去显示弹窗。 uni.showToast({ title:"显示内容", icon:"标志样式" }) 其中,title只能显示7个字符的内容,如果想要显示全,只能不设置icon。 icon默认是success&#xf…

LabVIEW与WPS文件格式的兼容性

LabVIEW 本身并不原生支持将文件直接保存为 WPS 格式(如 WPS 文档或表格)。然而,可以通过几种间接的方式实现这一目标,确保您能将 LabVIEW 中的数据或报告转换为 WPS 可兼容的格式。以下是几种常见的解决方案: ​ 导出…

如何异地远程访问本地部署的Web-Check实现团队远程检测与维护本地站点

文章目录 前言1.关于Web-Check2.功能特点3.安装Docker4.创建并启动Web-Check容器5.本地访问测试6.公网远程访问本地Web-Check7.内网穿透工具安装8.创建远程连接公网地址9.使用固定公网地址远程访问 前言 在日常开发和维护过程中,确保Web应用稳定运行是至关重要的。…

nginx 修改内置 404 页面、点击劫持攻击。

1、在部署前端项目的目录下增加 404.html 页面:/opt/web/404.html。 2、在 nginx 配置中增加 404 配置: root /opt/web; # 设置根目录的配置error_page 404 404.html; location /404.html {root /opt/web;# 指定 404 页面所在的根目录internal;# 确保…

VD:生成a2l文件

目录 前言Simulink合并地址 ASAP2 editor 前言 我之前的方法都是通过Simulink模型生成代码的过程中顺便就把a2l文件生成出来了,这时的a2l文件还没有地址,所以紧接着会去通过elf文件更新地址,一直以为这是固定的流程和方法,今天无…

浅谈云计算20 | OpenStack管理模块(下)

OpenStack管理模块(下) 五、存储管理5.1 存储管理概述 5.2 架构设计5.2.1 Cinder块存储架构5.2.2 Swift对象存储架构 六、网络管理6.1 网络管理概述6.2 架构解析6.2.1 Neutron网络服务架构6.2.2 网络拓扑架构 6.3 原理与流程6.3.1 网络创建原理6.3.2 网络…

Kafka常用命令

如何进行到Docker容器中运行Kafka: docker ps 找到CONTAINER ID 去前三位 执行docker exec -it bbd bin/bash进入到docker中进入到/opt/bitnami/kafka/bin中执行kafka脚本 ------------------------------------------------------------------------------------…

仿射密码实验——Python实现(完整解析版)

文章目录 前言实验内容实验操作步骤1.编写主程序2.编写加密模块3.编写解密模块4.编写文件加解密模块 实验结果实验心得实验源码scirpt.pyusefile.py 前言 实验目的 1)初步了解古典密码 2)掌握仿射密码的实现 实验方法 根据下图仿射密码(变换…