基于LLM的路由在专家混合应用:一种新颖的交易框架,该框架在夏普比率和总回报方面提升了超过25%

“LLM-Based Routing in Mixture of Experts: A Novel Framework for Trading”

论文地址:https://arxiv.org/pdf/2501.09636

摘要

随着深度学习和大语言模型(LLMs)的不断进步,混合专家(MoE)机制在股票投资领域得到了新的应用。目前的模型大多只专注于单一数据类型,未能充分利用如文本在内的其他数据类型的价值。传统的路由选择方式没有考虑到具体的上下文信息和实际情况,造成所选专家不够精准。本文介绍了一种名为LLMoE的新框架,该框架采用LLMs来替代以往的路由器,依据股票的历史价格以及相关新闻来挑选专家。实验结果显示,LLMoE在处理多模态的真实股票数据方面,其性能超越了现有的MoE模型及其它深度神经网络方法。此外,LLMoE具有灵活的架构设计,可以方便地应用于多种不同的下游任务。

简介

传统交易策略主要依靠统计方法和预测模型,然而这些方法在应对金融市场复杂的动态变化时显得力不从心。虽然深度学习为量化交易带来了显著改进,但其效果往往受限于单一预测器的使用,造成结果的不稳定性。采用Mixture-of-Experts (MoE) 方法可以通过结合多个专家模型来增强系统性能和适应性,更好地反映实际交易环境。不过,传统的MoE模型也有缺点,比如路由器设计过于静态,不够灵活,并且多侧重于数值型数据,忽略了文本信息的重要性。

本文介绍了一种名为LLMoE的新框架,它将MoE与语言模型相结合作为路由器,能够根据历史股价和新闻头条动态地选择专家模型。通过所谓的“全进全出”策略,LLMoE可以生成有效的交易决策,从而提高专家选择的准确性和金融市场的应用效果。

01方法

问题定义

利用五天的连续描述性数据(涵盖数值特征和新闻标题)来预测次日的股票走势 Y t+1。目的是根据 Y t+1 制定交易策略,整合定量数据与定性背景信息,以提升决策的准确性。

LLMoE:基于LLM路由的MoE方法

LLMoE框架采用LLM作为MoE结构中的路由器,以实现对多模态数据进行高效专家选择的目的。

LLM-based Router

处理历史股价和相关新闻,将专家分类为正面和负面,基于具体情境选取最适合的专家,以增强决策质量。

Expert Prediction

在乐观及悲观市场条件下,由专家模型进行预测,运用前馈神经网络解析价格指标,提高预测精度和决策水平。

Trading Algorithm Generation

实施“全进全出”策略,依据专家预测动态调节投资组合,旨在最大化收益。

02实验

实验设置

数据集

采用2006至2016年MSFT和AAPL的市场数据,其中MSFT的数据缺少较多新闻资讯,而AAPL的数据则相对完整,以此来检验LLMoE在处理不同条件下的多模态数据时的能力。

特征

设计了诸如价格比率、每日价格波动以及移动平均滚动偏差等特征,用以捕捉市场的短期动态与长期趋势。

基线模型

通过对比梯度提升决策树、神经网络及传统的Mixture of Experts模型,评估LLMoE模型的优越性。

评估标准

利用包括总回报率、年度波动幅度和夏普比率在内的七项金融指标,来评估模型在各种市场环境中的收益与风险控制表现。

实验细节

对基线模型进行了超参数的随机搜索优化,而对于LLMoE模型,则使用了网格搜索法。所有模型均应用了相同的5天观察期设定,并且整个实验过程重复了十次,确保结果的可靠性和稳定性。

具体实现

路由器

选用Llama3.2作为路由器,它能够整合数值和文本数据,并根据五天的滚动窗口特征来进行市场情绪分类。此过程将五个连续的数据点与相应的新闻标题结合,形成描述性字符串作为输入。

路由器输出包括:

  • 分类结果:识别市场情绪为乐观或悲观,并选择概率最高的标签进行标记。

  • 解释说明:提供自然语言形式的分类理由,以增加决策过程的透明度。

专家模型

专家模型针对乐观和悲观的市场状况设计,使用统一的架构处理55个数值特征来预测次日股价走势。它采用滚动窗口机制作为输入层,涵盖了连续五天的数据,每天包含11个数值属性(例如日价格变动和移动平均偏差)。这种输入方法有助于捕捉市场短期的波动和长期的趋势,从而提升预测的精确度。

结果

路由器的类人推理

在LLMoE框架中,路由器通过结合数值和文本信息展现了类似人类的推理能力。例如,即使新闻报道对苹果的增长表示担忧,路由器仍能识别出价格和销量的持续上升趋势,从而提示了一个“谨慎乐观”的前景。这种能力显示路由器能够综合考虑正面的数据趋势与复杂的情绪文本,生成既平衡又具上下文感知的预测。

LLMoE性能优异

LLMoE模型在诸如总回报、夏普比率及卡尔玛比率这些关键指标上,明显超越了其他基线模型,体现了其在收益与风险管理方面的杰出表现。实验结果证明了利用大型语言模型作为路由器来整合数值和文本数据的有效性和精确度。

2-Expert MoE与LLMoE的比较

LLMoE通过动态结合多模态数据,表现优于采用静态路由的2-expert MoE模型。它实现了专家资源的更高效分配,改善了风险调整后的回报指标,例如夏普比率和卡尔玛比率。此外,LLMoE在风险管理方面也有显著提升,表现为最大回撤(MDD)的减少。

03总结

本文介绍的LLMoE框架,利用预训练的大型语言模型作为Mixture of Experts (MoE)架构中的路由器,通过动态整合数值型股票特征和文本新闻数据,强化了定量与定性分析的结合。这种动态路由机制突破了传统MoE系统的静态局限,提高了对市场波动的适应能力。实验结果表明,LLMoE在风险调整回报指标,如夏普比率和总回报方面提升了超过25%,成为一种领先的智能交易策略工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12093.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Med-R2:基于循证医学的检索推理框架:提升大语言模型医疗问答能力的新方法

Med-R2 : Crafting Trustworthy LLM Physicians through Retrieval and Reasoning of Evidence-Based Medicine Med-R2框架Why - 这个研究要解决什么现实问题What - 核心发现或论点是什么How - 1. 前人研究的局限性How - 2. 你的创新方法/视角How - 3. 关键数据支持How - 4. 可…

【Blazor学习笔记】.NET Blazor学习笔记

我是大标题 我学习Blazor的顺序是基于Blazor University,然后实际内容不完全基于它,因为它的例子还是基于.NET Core 3.1做的,距离现在很遥远了。 截至本文撰写的时间,2025年,最新的.NET是.NET9了都,可能1…

C++ Primer 迭代器

欢迎阅读我的 【CPrimer】专栏 专栏简介:本专栏主要面向C初学者,解释C的一些基本概念和基础语言特性,涉及C标准库的用法,面向对象特性,泛型特性高级用法。通过使用标准库中定义的抽象设施,使你更加适应高级…

2 [GitHub遭遇严重供应链投毒攻击]

近日,有黑客针对 Discord Top.gg 的GitHub 账户发起了供应链攻击,此次攻击导致账户密码、凭证和其他敏感信息被盗,同时也影响到了大量开发人员。 Checkmarx 在一份技术报告中提到,黑客在这次攻击中使用了多种TTP,其中…

【AudioClassificationModelZoo-Pytorch】基于Pytorch的声音事件检测分类系统

源码:https://github.com/Shybert-AI/AudioClassificationModelZoo-Pytorch 模型测试表 模型网络结构batch_sizeFLOPs(G)Params(M)特征提取方式数据集类别数量模型验证集性能EcapaTdnn1280.486.1melUrbanSound8K10accuracy0.974, precision0.972 recall0.967, F1-s…

基于Spring Security 6的OAuth2 系列之七 - 授权服务器--自定义数据库客户端信息

之所以想写这一系列,是因为之前工作过程中使用Spring Security OAuth2搭建了网关和授权服务器,但当时基于spring-boot 2.3.x,其默认的Spring Security是5.3.x。之后新项目升级到了spring-boot 3.3.0,结果一看Spring Security也升级…

Jupyterlab和notebook修改文件的默认存放路径的方法

文章目录 1.缘由2.操作流程2.1找到默认的路径2.2创建配置文件2.3修改配置文件内容2.4注意事项 1.缘由 我自己使用jupyterlab的时候,打开是在这个浏览器上面打开的,但是这个打开的文件路径显示的是C盘上面路径,所以这个就很麻烦,因…

算法题(56):旋转链表

审题: 我们需要根据k的大小把链表向右移动对应次数,并返回移动后的链表的头结点指针 思路: 根据提示中的数据大小我们发现:k的值可以远大于节点数。 也就是说我们对链表的操作存在周期,如果k%len0,说明我们…

新月军事战略分析系统使用手册

新月人物传记: 人物传记之新月篇-CSDN博客 相关故事链接:星际智慧农业系统(SAS),智慧农业的未来篇章-CSDN博客 “新月智能武器系统”CIWS,开启智能武器的新纪元-CSDN博客 “新月之智”智能战术头盔系统&…

金山打字游戏2010绿色版,Win7-11可用DxWnd完美运行

金山打字游戏2010绿色版,Win7-11可用DxWnd完美运行 链接:https://pan.xunlei.com/s/VOIAYCzmkbDfdASGJa_uLjquA1?pwd67vw# 进入游戏后,如果输入不了英文字母(很可能是中文输入状态),就按一下“Shift”键…

99,[7] buuctf web [羊城杯2020]easyphp

进入靶场 <?php// 使用 scandir 函数扫描当前目录&#xff08;即脚本所在目录&#xff09;下的所有文件和文件夹// 该函数会返回一个包含目录下所有文件和文件夹名称的数组$files scandir(./); // 遍历扫描得到的文件和文件夹名称数组foreach($files as $file) {// 使用 …

Hot100之图论

200岛屿数量 题目 思路解析 把访问过的格子插上棋子 思想是先污染再治理&#xff0c;我们有一个inArea&#xff08;&#xff09;函数&#xff0c;是判断是否出界了 我们先dfs&#xff08;&#xff09;放各个方向遍历&#xff0c;然后我们再把这个位置标为0 我们岛屿是连着…

html中的表格属性以及合并操作

表格用table定义&#xff0c;标签标题用caption标签定义&#xff1b;用tr定义表格的若干行&#xff1b;用td定义若干个单元格&#xff1b;&#xff08;当单元格是表头时&#xff0c;用th标签定义&#xff09;&#xff08;th标签会略粗于td标签&#xff09; table的整体外观取决…

LabVIEW如何有效地进行数据采集?

数据采集&#xff08;DAQ&#xff09;是许多工程项目中的核心环节&#xff0c;无论是测试、监控还是控制系统&#xff0c;准确、高效的数据采集都是至关重要的。LabVIEW作为一个图形化编程环境&#xff0c;提供了丰富的功能来实现数据采集&#xff0c;确保数据的实时性与可靠性…

进阶数据结构——双向循环链表

目录 前言一、定义与结构二、特点与优势三、基本操作四、应用场景五、实现复杂度六、动态图解七、代码模版&#xff08;c&#xff09;八、经典例题九、总结结语 前言 这一期我们学习双向循环链表。双向循环链表不同于单链表&#xff0c;双向循环链表是一种特殊的数据结构&…

S4 HANA明确税金汇差科目(OBYY)

本文主要介绍在S4 HANA OP中明确税金汇差科目(OBYY)相关设置。具体请参照如下内容&#xff1a; 1. 明确税金汇差科目(OBYY) 以上配置点定义了在外币挂账时&#xff0c;当凭证抬头汇率和税金行项目汇率不一致时&#xff0c;造成的差异金额进入哪个科目。此类情况只发生在FB60/F…

在线知识库的构建策略提升组织信息管理效率与决策能力

内容概要 在线知识库作为现代企业信息管理的重要组成部分&#xff0c;具有显著的定义与重要性。它不仅为组织提供了一个集中存储与管理知识的平台&#xff0c;还能够有效提升信息检索的效率&#xff0c;促进知识的创新和利用。通过这样的知识库&#xff0c;企业可以更好地应对…

【汽车电子软件架构】AutoSAR从放弃到入门专栏导读

本文是汽车电子软件架构&#xff1a;AutoSAR从放弃到入门专栏的导读篇。文章延续专栏文章的一贯作风&#xff0c;从概念与定义入手&#xff0c;希望读者能对AutoSAR架构有一个整体的认识&#xff0c;然后对专栏涉及的文章进行分类与链接。本文首先从AutoSAR汽车软件架构的概念&…

DeepSeek-R1:通过强化学习激励大型语言模型(LLMs)的推理能力

摘要 我们推出了第一代推理模型&#xff1a;DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个未经监督微调&#xff08;SFT&#xff09;作为初步步骤&#xff0c;而是通过大规模强化学习&#xff08;RL&#xff09;训练的模型&#xff0c;展现出卓越的推理能力。通过强…

响应式编程与协程

响应式编程与协程的比较 响应式编程的弊端虚拟线程Java线程内核线程的局限性传统线程池的demo虚拟线程的demo 响应式编程的弊端 前面用了几篇文章介绍了响应式编程&#xff0c;它更多的使用少量线程实现线程间解耦和异步的作用&#xff0c;如线程的Reactor模型&#xff0c;主要…