2024MathorCup大数据竞赛 B题基本思路

AB两题的难度分析

赛道A:台风的分类与预测

赛道A要求参赛者利用大数据分析方法解决台风分类与预测的问题。具体任务包括分析台风特征参数(强度、等级、风速等)与气温、气压、季风的关系,建立分类模型,并进行台风路径预测及分析台风登陆后的风速和降水量变化。

赛道B:电商品类货量预测及品类分仓规划

赛道B的任务是预测电商仓储网络中350个品类在未来三个月的库存量和销量,并根据预测结果制定合理的品类分仓方案,包括一品一仓方案和允许多仓方案。

比较分析

  • 数据需求:两个赛道都需要大量的历史数据,赛道A的数据涉及气象参数,而赛道B的数据则涉及销售记录和仓库信息。
  • 技能要求:赛道A需要较强的气象学知识和对非线性系统的理解能力;赛道B则需要对供应链管理和库存控制有一定的了解。
  • 模型复杂度:赛道A的模型可能更为复杂,因为它涉及到自然现象的预测,而自然现象往往具有高度的不确定性和复杂性;赛道B虽然也需要复杂的预测模型,但更多的是围绕商业数据展开。
  • 实践应用:赛道A的应用更广泛,可以用于灾害预警和应急准备;赛道B的应用则更加聚焦于提高电商企业的运营效率。

哪个题目比较简单?

从表面上看,赛道B的题目可能相对简单一些,因为它更多依赖于历史销售数据进行预测,而且这些数据通常较为可靠和结构化。此外,分仓规划虽然也需要复杂的计算,但是它的问题定义较为清晰,目标明确。相比之下,赛道A需要处理的是自然界的不可控因素,其模型构建和验证可能会更加困难。

赛题B

问题 1:建立货量预测模型

1.1 库存量预测模型
  1. 数据准备
    • 整理附件1中的历史库存量数据,确保数据的完整性、准确性和一致性。
    • 对缺失数据进行处理,如使用插值法填补空缺值。
  2. 特征工程
    • 提取时间特征(如季节性、趋势)。
    • 识别节假日和促销活动的影响。
    • 从数据中发现周期性模式或趋势。
  3. 模型选择
    • 可以选用时间序列分析方法(如ARIMA、SARIMA)来捕捉季节性趋势。
    • 也可以使用机器学习方法(如XGBoost、LSTM)来处理非线性关系。
  4. 模型训练
    • 使用历史数据训练模型,并通过交叉验证选择最佳参数配置。
    • 确保模型在测试集上有良好的泛化能力。
  5. 预测
    • 使用训练好的模型对未来三个月(7月、8月、9月)的库存量进行预测,并将结果填写在表格中。
1.2 销量预测模型
  1. 数据准备
    • 整理附件2中的历史销量数据,确保数据的完整性、准确性和一致性。
    • 对缺失数据进行处理,如使用插值法填补空缺值。
  2. 特征工程
    • 提取时间特征(如季节性、趋势)。
    • 识别节假日和促销活动的影响。
    • 从数据中发现周期性模式或趋势。
  3. 模型选择
    • 可以选用时间序列分析方法(如ARIMA、SARIMA)来捕捉季节性趋势。
    • 也可以使用机器学习方法(如XGBoost、LSTM)来处理非线性关系。
  4. 模型训练
    • 使用历史数据训练模型,并通过交叉验证选择最佳参数配置。
    • 确保模型在测试集上有良好的泛化能力。
  5. 预测
    • 使用训练好的模型对未来每天的销量进行预测,并将结果填写在表格中。

问题 2:一品一仓分仓规划模型

2.1 建立规划模型
  1. 定义变量
    • 设定二元变量表示某个品类是否放置在某个仓库中。
  2. 目标函数
    • 定义目标函数以最小化总仓租成本,同时最大化品类关联度。
  3. 约束条件
    • 根据附件3中的仓容上限、产能上限设定约束条件。
    • 根据附件4中的品类关联度设定约束条件。
  4. 求解
    • 使用线性规划或混合整数规划求解器(如CPLEX、GUROBI)求解最优解。
2.2 分仓方案生成
  1. 求解结果解析
    • 从求解器获取结果,解析出每个品类的最佳存放仓库。
  2. 结果填写
    • 将求解结果按照表格格式填写,并放入论文正文。

问题 3:一品多仓分仓规划模型

3.1 建立规划模型
  1. 定义变量
    • 设定二元变量表示某个品类是否放置在某个仓库中。
    • 设定一个额外的变量来表示品类在不同仓库中的分布比例。
  2. 目标函数
    • 定义目标函数以最大化品类关联度,同时考虑仓容利用率、产能利用率等因素。
  3. 约束条件
    • 根据附件3中的仓容上限、产能上限设定约束条件。
    • 根据附件4中的品类关联度设定约束条件。
    • 同件型、同高级品类尽量放在一个仓库中。
  4. 求解
    • 使用启发式算法(如遗传算法、粒子群优化)或混合整数规划求解器求解最优解。
3.2 分仓方案生成
  1. 求解结果解析
    • 从求解器获取结果,解析出每个品类的最佳存放仓库及其比例。
  2. 结果填写
    • 将求解结果按照表格格式填写,并放入论文正文。
  3. 业务指标分析
    • 对不同方案中的业务指标(如仓容利用率、产能利用率、总仓租成本等)进行比较分析,总结出最优方案。

数据预处理方法

1. 数据清洗
1.1 缺失值处理
  • 检查缺失值:首先,需要检查历史库存量和销量数据中是否存在缺失值。
  • 填充缺失值:如果存在缺失值,可以使用以下方法填充:
    • 时间序列方法:使用前后相邻的时间点数据进行插值,例如线性插值。
    • 平均值/中位数:对于某些时间段的缺失,可以用前后时段的平均值或中位数来代替。
    • 预测填充:使用时间序列预测方法(如ARIMA)来预测缺失值。
1.2 异常值检测
  • 检测异常值:通过绘制时间序列图或箱线图来检测异常值。
  • 处理异常值:可以采用删除、修正或平滑的方法处理异常值,以保持数据的一致性。
1.3 数据标准化
  • 数据标准化:如果数据范围相差很大,可以使用z-score标准化或min-max缩放等方法对数据进行标准化处理,以便于后续分析。
2. 时间序列特征提取
2.1 季节性分解
  • 使用STL分解:对库存量和销量数据进行季节性、趋势和残差成分的分解,以提取季节性特征。
  • 周期性检测:检测数据中是否存在明显的周期性模式,如周、月、季度等周期。
2.2 时间窗口特征
  • 滑动窗口:创建滑动窗口,提取前n天的平均值、标准差等统计特征,以反映数据的变化趋势。
  • 滞后特征:构造滞后特征,比如t-1时刻的库存量或销量,以捕捉时间序列的动态变化。
3. 特征工程
3.1日历特征
  • 日期特征:提取日期特征,如星期几、月份、季度等,以捕捉日期对销量的影响。
4. 数据集成
4.1 数据合并
  • 合并数据集:将处理后的库存量和销量数据与外部特征(如节假日、促销活动等)进行合并,形成可用于建模的数据集。
5. 数据分割
5.1 训练集与测试集
  • 时间序列分割:按照时间顺序将数据划分为训练集和测试集,确保模型能够在未知数据上进行验证。

实施步骤

  1. 加载数据:首先加载附件1和附件2中的历史库存量和销量数据。
  2. 执行上述步骤:按照上述步骤逐一实施数据清洗、特征提取、特征工程、数据集成和数据分割。
  3. 数据检验:确保预处理后的数据集没有缺失值、异常值,并且特征丰富、一致。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/457189.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java--反射机制

前言: 反射与之前的知识的区别 1.面向对象中创建对象,调用指定结构(属性、方法)等功能,可以不使用反射,也可以使用反射。请问有什么区别? 不使用反射,我们需要考虑封装性。比如:出了自定义类之后,就不能…

WPF+MVVM案例实战(六)- 自定义分页控件实现

文章目录 1、项目准备2、功能实现1、分页控件 DataPager 实现2、分页控件数据模型与查询行为3、数据界面实现 3、运行效果4、源代码获取 1、项目准备 打开项目 Wpf_Examples,新建 PageBarWindow.xaml 界面、PageBarViewModel.cs ,在用户控件库 UserControlLib中创建…

电池的主被动均衡

只有串联的电池需要进行电压均衡,并联的电池由于电压一致,所以并不需要进行均衡: 被动均衡有一个很明显的特征就是会看到很多大电阻,串联在MOS和电池之间:下图中的保护板就是被动均衡板子以及它的原理图: …

软硬件开发面试问题大汇总篇——针对非常规八股问题的提问与应答

软硬件开发,从微控制器编程到复杂的嵌入式系统开发,离不开下位机、操作系统、上位机等,涵盖范围很广。 如何快速一行代码操作硬件寄存器 直接操作硬件寄存器的代码通常依赖于特定平台和编程语言。在 C 或 C 中,常见的方法是使用指…

WORFBENCH:一个创新的评估基准,目的是全面测试大型语言模型在生成复杂工作流 方面的性能。

2024-10-10,由浙江大学和阿里巴巴集团联合创建的WORFBENCH,一个用于评估大型语言模型(LLMs)生成工作流能力的基准测试。它包含了一系列的测试和评估协议,用于量化和分析LLMs在处理复杂任务时分解问题和规划执行步骤的能力。WORFBE…

智慧停车场导航系统架构及反向寻车系统解决方案

一、系统概述: 随着当前室内定位导航技术在大型公共场所如政务中心、商业综合体、车站中的应用越来越多,人们对智慧停车场的需求也日益凸显出来,并且智慧停车场对大型公共场所智慧化的整体建设起到重要作用。如何更有效提高停车效率&#xf…

如何加密电脑磁盘?电脑本地磁盘加密方法介绍

随着信息技术的不断发展,电脑磁盘加密已经成为保护个人隐私和数据安全的重要手段。本文将介绍几种常见的电脑本地磁盘加密方法,帮助用户保护自己的数据安全。 文件夹只读加密专家 文件夹只读加密专家不仅可以加密电脑中的文件夹,还可以加密保…

Android 13 SystemUI 隐藏下拉快捷面板部分模块(wifi,bt,nfc等)入口

frameworks/base/packages/SystemUI/src/com/android/systemui/qs/tileimpl/QSFactoryImpl.java createTileInternal(tileSpec)方法注释想隐藏的模块即可。

【C++进阶篇】——STL的简介

【C进阶篇】——STL的简介 1.什么是STL STL(standard template libaray-标准模板库):是C标准库的重要组成部分,不仅是一个可复用的组件库,而且是一个包罗数据结构与算法的软件框架。 2.STL的版本 原始版本 Alexander Stepanov、Meng Lee 在…

redis集群配置

一、Redis集群的三种方式 Redis集群提供了三种分布式方案:主从模式:一个主节点和一个或多个从节点,主节点负责写操作,从节点负责读操作,实现读写分离,分担主节点的压力。哨兵模式:哨兵系统用于监…

【每日一题】LeetCode - 盛最多水的容器

给定一个长度为 n 的整数数组 height。有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i])。要求找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。 输入示例: height [1,8,6,2,5,4,8,3,7]输出: 4…

Python依赖库的几种离线安装方法

Python依赖库的几种安装方法 python经常需要安装一些依赖库,但是有时候环境可以连通python源,有时不能连通需要离线安装(安装单个库包或者整个库环境),使用pip的如下方法可以相对简单解决问题。 一、如何copy一个pyt…

Linux 端口占用 kill被占用的端口 杀掉端口

1、yum install lsof 2、输入netstat -tln,查看系统当前所有被占用端口 3、根据端口查询进程,输入lsof -i :9555,切记不要忘了添加冒号 4、 既然知道进程号了,那杀死当前进程就简单多了,直接 kill -9 PID 回车

如何通过企业架构蓝图引导企业实现数字化转型:构建与实施的全方位指南

在当今迅速变化的商业环境中,企业进行数字化转型已成为提升竞争力、优化运营的必要手段。企业架构蓝图(EA Blueprint)作为指导企业数字化转型的战略工具,不仅提供了系统化的设计和规划路径,还帮助企业在技术与业务目标…

【读书笔记·VLSI电路设计方法解密】问题26:什么是漏电流问题

功耗现已成为半导体行业面临的主要技术难题。在当前基于CMOS的VLSI电路中,有两种主要的功耗来源:动态功耗和静态功耗。动态功耗来源于晶体管的切换以及芯片上数百万逻辑门输出端的电容反复充电和放电,是芯片为产生有效输出所消耗的能量。静态功耗则指即使在晶体管关闭时也会…

法治在沃刷积分-刷文章浏览数

最近有一个任务,需要通过浏览文章来获取积分,一个个手点文章太麻烦,专业的事情还得专业的来。 法1:模拟发包 抓包发现,是通过接口来使积分增长,那直接模拟发包即可。 至于info_id的获取,可以通…

2024年全球 MoonBit 编程创新赛-零基础早鸟教程-使用wasm4八小时开发井子棋小游戏

前言 本篇文章主要分享 “2024年全球 MoonBit 编程创新赛 游戏赛道”参赛过程中九宫棋游戏的开发技巧和心得。以此抛砖引玉。首先介绍下 MoonBit。 月兔语言 MoonBit 是一个用于云计算和边缘计算的 WebAssembly 端到端的编程语言工具链。 您可以访问 https://try.moonbitlang.…

文本预处理操作简述

自然语言处理 (NLP) 是数据科学的一个分支,主要处理文本数据。除了数值数据外,文本数据也广泛可用,用于分析和解决业务问题。然而,在使用数据进行分析或预测之前,处理数据非常重要。 我们执行文本预处理来准备用于模型…

mysql的卸载与安装

一、mysql的卸载 1、用管理员模式的打开cmd,我的服务名是mysql。 net stop 【你的服务名】 sc delete 【你的服务名】 2、将下图中有包含‘bin’目录,‘data’目录等等的这个总目录删掉 如图我的目录是:mysql-5.7.28-winx64 3、删除mysql的隐…

代码随想录算法训练营Day39 | 卡玛网-46.携带研究材料、416. 分割等和子集

目录 卡玛网-46.携带研究材料 416. 分割等和子集 卡玛网-46.携带研究材料 题目 卡玛网46. 携带研究材料(第六期模拟笔试) 题目描述: 小明是一位科学家,他需要参加一场重要的国际科学大会,以展示自己的最新研究成…