实际波动率预测:kaggle比赛

实际波动率预测

  • 1. 比赛概述
    • 1.1 背景介绍
    • 1.2 赛事目标
    • 1.3 评估指标和结果提交
  • 2. 数据介绍
    • 2.1 book_[train/test].parquet
    • 2.2 trade_[train/test].parquet
    • 2.3 train.csv
    • 2.4 test.csv
    • 2.5 sample_submission.csv
  • 3. Optiver提供的[官方帮助文档](https://www.kaggle.com/jiashenliu/introduction-to-financial-concepts-and-data)
    • 3.1 金融概念
      • 3.1.1 订单簿(Order book)
      • 3.1.2

kaggle比赛: optiver realized volatity prediction

1. 比赛概述

1.1 背景介绍

在金融市场中,波动率反映了价格的波动幅度,高波动率代表了市场震荡,价格大幅变动,而低波动率代表了较为平静的市场。期权的价格与标的资产的波动率相关,波动率预测的准确性将使得期权的定价更加公平公允,因此准确预测波动率对期权交易至关重要。

以欧式认购期权为例,期权价格公式如下所示(Black-sholes):
c = S 0 N ( d 1 ) − K e − r T N ( d 2 ) d 1 = l n ( S 0 / K ) + ( r + σ 2 / 2 ) T σ T , d 2 = d 1 − σ T c = S_0N(d1) - Ke^{-rT}N(d2) \\ d1 = \frac{ln(S_0/K)+(r+\sigma^2/2)T}{\sigma \sqrt{T}} , d2 = d1 - \sigma \sqrt{T} c=S0N(d1)KerTN(d2)d1=σT ln(S0/K)+(r+σ2/2)T,d2=d1σT

在BS公式中,假设波动率是固定不变的,并且实际波动率=隐含波动率。在其他条件不变的情况下,当波动率 σ \sigma σ越大,期权的理论价格就越高。
v e g a = ∂ f ∂ σ = S T N ′ ( d 1 ) > 0 vega = \frac{\partial f}{\partial \sigma} = S \sqrt{T} N'(d1) \gt 0 vega=σf=ST N(d1)>0

但是实际中,未来实际波动率是无法提前得知,期权的波动率越高,标的价格超过行权价的可能性就越大( P & L = m a x ( S T − K , 0 ) P\&L = max(S_T-K,0) P&L=max(STK,0),只有超过了行权价买方才会行权),买方获得收益的可能性就越大。为了避免亏损,期权的卖方通常会取一个很高的波动率来进行定价,期权的价格将会偏高。

1.2 赛事目标

在比赛前三个月(2021年6月28日-2021年9月27日),各位参赛者将通过构建模型来预测不同行业的数百只股票的短期波动情况(10分钟内波动率),模型将根据后三个月真实市场数据进行评估。

1.3 评估指标和结果提交

**评估指标:**本次评估指标用的是RMSPE,如下所示:

R M S P E = 1 n ∑ i = 1 n ( ( y i − y ^ i ) / y i ) 2 RMSPE = \sqrt{\frac{1}{n}} \sum_{i=1}^{n} ((y_i - \hat{y}_i)/y_i)^2 RMSPE=n1 i=1n((yiy^i)/yi)2

结果提交: 结果文件submission.csv中应该包括row_id和target两列,如下所示。并且必须通过Notebooks来提交代码,运行时间不能超过九个小时。

row_idtarget
0-00.003
0-10.002
0-20.001

2. 数据介绍

该数据集包括了在金融市场中实际交易执行相关的股票市场数据,包括了订单簿数据和交易数据。秒级的数据以更细的粒度描述了金融市场的微观结构。

数据集是不允许下载的,只有测试集的前几行可供下载,可在notebook中进行使用,隐藏的测试集大概有15w的数据需要预测,public leaderboard和private leaderboard所使用的的数据是完全没有重叠的。

2.1 book_[train/test].parquet

该文件中提供了进入市场的最具竞争力的买卖订单的订单簿数据,通俗来说,也就是买一,卖一,买二,卖二价格数据。一个stock_id对应了一个订单簿文件,test里面只有stock_id=0的数据。

变量名变量含义
stock_id股票的id代码,parquet文件中stock_id是类别变量,可能希望转换为int8类型
time_id时间段的id代码,时间id不一定连续,但在所有股票中都是一致的。
seconds_in_bucket开始的秒数,通常从0开始,每十分钟为一个时间段,相当于这十分钟里的秒数。
bid_price[1/2]买一/买二价,已标准化
ask_price[1/2]卖一/卖二价,已标准化

book

2.2 trade_[train/test].parquet

该问题提供了交易数据。通常来说,投资者被动买卖的交易意向比实际交易要多得多,所以实际的交易数据会比订单簿更加稀疏。(被动买卖:不着急出手,认为股票股价还有发展的潜力(或跌或涨),挂单的价格相比于买一卖一没有那么有竞争力;主动买卖:急于出手,以卖一价以上的价格成交或以买一以下的价格成交)。一个stock_id对应了一个交易数据文件,test里面只有stock_id=0的数据。

变量名变量含义
stock_id股票的id代码
time_id时间段的id代码
seconds_in_bucket同上,由于交易数据一般较为稀疏,因此该字段不一定从0开始
price一秒钟内的平均交易价格,按照股票数量加权,并标准化。
size交易的股票总数
order_count交易订单的数量

trade

2.3 train.csv

提供了波动率的数据

变量名变量含义
stock_id股票的id代码
time_id时间段的id代码
target接下来十分钟的实际波动率,特征和目标数据之间没有重叠

train.csv

2.4 test.csv

变量名变量含义
stock_id股票的id代码
time_id时间段的id代码
row_id提交行的唯一标识符,对于每一个(stock_id,time_id)对,有一个唯一的标识符,同时不是每一个time_id都对应了所有的stock_id。

test.csv

2.5 sample_submission.csv

格式正确的样例提交文件。

变量名变量含义
row_id同test_csv
target与train.csv中的定义相同。

3. Optiver提供的官方帮助文档

3.1 金融概念

3.1.1 订单簿(Order book)

3.1.2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33618.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[Kaggle比赛] 高频股价预测小结

高频股价预测 文章目录 高频股价预测问题描述问题分析数据分析数据集数据清洗 解决方案数据预处理归一化PricesVolume时间信息对于预测值的处理噪声 模型探索基于LSTM的RNN模型递归神经网络(RNN)长短期记忆(LSTM)网络模型实现参数调整 卷积神经网络卷积神…

Predict Future Sales 预测未来销量, Kaggle 比赛,LB 0.89896 排名6%

Predict Future Sales 数据分析1. 数据基本处理1.1 读入数据集1.2 基线模型预测1.3 节省存储空间 2. 数据探索2.1 训练集分析 sales_train2.1.1 每件商品的销量2.1.2 每个商店的销量2.1.3 每类商品的销量2.1.4 销量和价格的离群值 2.2 测试集分析2.3 商店特征2.3.1 商店信息清洗…

世界杯押注还得看技术流,这个预测AI把赔率也算上了

胡澎 发自 凹非寺 量子位 报道 | 公众号 QbitAI 世界杯小组赛将收官,你还依然信AI吗? 冷门频出,黑马击败豪强。不少AI模型始料未及。 到底还能不能愉快找到科学规律?或者说足球比赛乃至其他竞技体育赛事,数据科学家在A…

足球大数据预测实战之高胜率盈亏条件验证及优化算法

上周接到一位老用户,之前为他做过数据验证,给出了组合条件下的胜率回查,结果有些难看啊。这期主要介绍常用人工智能算法中在足球预测中的应用,以及数据验证后的实际效果。 由上图为用户依据条件查证后的比赛场次和概率统计。可以看…

苹果手机朝下无法唤醒Siri,这个解决方法你知道吗

Siri对于苹果手机的用户来说是一个非常大的吸引点,能够指挥苹果手机中的Siri去做很多事情,如:放一首歌曲、百度一些知识点、这句话用英语怎么说等等功能。但是,不知道你们有没有发现一般我们苹果手机朝下无法唤醒Siri。是不是觉得…

如何解决Siri无法正常运行的问题

Siri 是一位智能助理,能帮助你在 Apple 设备上更快速轻松地处理各种事务,甚至不用等你开口。 Mac 上的 Siri 可帮助您执行日常任务,如获取问题的快速***、播放音乐等。您可以询问 Siri 几乎任何内容,Siri 都可以为您执行或回答您的问题。如果在使用 Siri…

【推荐实践】多场景多任务学习在美团到店餐饮推荐的实践

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年2月份热门报告合集 ChatGPT团队背景研究报告 ChatGPT的发展历程、原理、技术架构及未来方向 ChatGPT使用总结:150个ChatGPT提示此模板 ChatGPT数据集之谜 …

倒计时3天!2023新榜AIGC生态大会看点剧透

倒计时3天!「AIGC赋能重塑内容生态」2023新榜AIGC生态大会将于7月14日在北京丽都皇冠假日酒店重磅登场。 内容行业正在步入AI时代。 AIGC(AI Generated Content,即人工智能生成内容)被认为是继OGC、PGC和UGC之后的新型内容生产方式…

携程平台增长部总经理王绩强:原生互联网企业正在经历一场数字升级丨数据猿专访...

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 以大数据和人工智能为核心,众多新兴技术开始赋能数字营销。于是,智能营销已然从工具化走向了业务化。 如今,数字化营销已经成为了企业数字化转型中的重要一环。相较于传统营销逻辑&#x…

技术总监亲自上阵,手撸了个推荐系统!

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年2月份热门报告合集 从0到1详解推荐系统基础知识和框架 推荐技术在vivo互联网商业化业务中的实践.pdf 推荐系统基本问题及系统优化路径.pdf 大规模推荐类深度学习系统的…

融合GPT大模型产品,WakeData新一轮产品升级

近期,WakeData惟客数据(以下简称 “ WakeData ” )完成了新一轮的产品能力升级。就 ToB 企服公司如何融合GPT 大模型,WakeData 给出了自己的答案。 在2022年11月的产品发布会上,已传递出WakeData的“三个坚定”&#x…

借助chatGPT强大的源码理解能力,来快速学习elasticsearch 7.11.1整体源码结构(用chatGPT学源码太香了)

ES阅读学习源码的难处 es的源码非常之多。能够查阅的资料非常少。如果是我们一行一行的去扒着源码看,在我看来至少需要2年的时间,并且至少要耗费四分之一的头发。源码读起来很枯燥,特别是在我们一头雾水的时候。很容易产生放弃的念头。很少有…

大语言模型中的涌现现象是不是伪科学?

深度学习在理论上的孱弱一直被诟病,但科学史上存在大量先有应用再有理论的事例,而其中不能解释的重大实验现象往往预示着理论创新的契机。我们首先从现象出发,来看下LLM中最神秘的emergent ability,如图 上图中x、y轴分别表示模型…

自制开源的 Midjourney、Stable Diffusion “咒语”作图工具

本篇文章聊聊如何通过 Docker 和八十行左右的 Python 代码,实现一款类似 Midjourney 官方图片解析功能 Describe 的 Prompt 工具。 让你在玩 Midjourney、Stable Diffusion 这类模型时,不再为生成 Prompt 描述挠头。 写在前面 本文将提供两个版本的工…

【区块链技术社区】区块链微信群

磨链mochain社区-区块链技术讨论交流不定期进行线上的技术交流学习,技术分享。线下技术交流,成员主要在北京、上海、浙江、广东等地。欢迎:区块链技术大咖、区块链爱好者、区块链技术爱好者、想了解区块链技术的小白不欢迎:广告党…

区块链笔记:典型应用:数据资产、交易系统、即时通信、链上游戏、追踪溯源等

数据资产 1 ) 详解 这是区块链的一个比较核心的应用,对于软件系统或者说对于互联网系统来讲,对数据的处理、分析、计算,这些功能是属于比较基本的软件功能对于区块链来讲它的核心的功能是在于创新式的提供了一个原先各种软件都没…

靠谱的区块链应用到底是啥?通证啊!——第二次中关村-CSDN区块链开发技术沙龙【含PPT下载】

针对“通证”话题的多篇分析文章预热,本期沙龙在开始前就被区块链网友广泛关注。此次沙龙的参会者经过层层的严格筛选,才得以与众位大咖面对面沟通。 12月15日下午,中关村区块链产业联盟、CSDN、枫玉科技联合举办的区块链系列沙龙。来自中关村…

云图说丨不同区块链之间如何跨链交互?

本文分享自华为云社区《【云图说】第237期 不同区块链之间如何跨链交互?》,作者: 阅识风云。 可信跨链服务是基于一系列制定的可信区块链标准跨链协议,保证跨链交易全栈可追溯、可扩展性及可靠性等,助力不同区块链可…

知乎高赞 | 区块链是什么? (一)

首先不要把区块链想的过于高深,他是一个分布在全球各地、能够协同运转的数据库存储系统,区别于传统数据库运作——读写权限掌握在一个公司或者一个集权手上(中心化的特征),区块链认为,任何有能力架设服务器…

XuperChain 百度区块链简易学习帖

百度XuperChain基于Ubuntu系统从零开始到部署简单合约 环境配置go语言安装git安装客户端安装 启动私链基本操作命令1. 创建普通用户2. 创建合约账号3. 查询余额4. 转账5. 查询交易信息6. 查询block信息 网络部署(选择性阅读)1. 创建网络部署环境2. 配置种…