2024 年第十四届 APMCM 亚太地区大学生数学建模竞赛B题超详细解题思路+数据预处理问题一代码分享

B题 洪水灾害的数据分析与预测

亚太中文赛事本次报名队伍约3000队,竞赛规模体量大致相当于2024年认证杯,1/3个妈杯,1/10个国赛。赛题难度大致相当于0.6个国赛,0.8个妈杯。该比例仅供大家参考。

本次竞赛赛题难度A:B:C=3:1:4,选题人数估计A:B:C=1:9:2。基于于本次比赛B题选题人数可能会占据很大的比例的现状,我们将提供两个版本论文,思路完全不同的B题资料【一篇论文+两套代码+售后群不禁言】。下面给大家带来详细的解题思路。

对于数据类型的题目,第一步一定是先进行数据处理,而非直接进行问题一的求解。

数据预处理

缺失值处理:

    - 检查数据中的缺失值情况。

    - 根据数据分布情况选择合适的填补方法,如均值填补、中位数填补或插值法。

异常值处理:

    - 绘制箱线图,识别和处理异常值。

- 根据数据的实际意义和分布情况决定是否去除或调整异常值。

数据标准化:

- 对所有数值型数据进行标准化处理,以消除量纲差异对分析结果的影响。

下面进行部分异常值展示,对于数据中提供的各项指标得分中取值区间均为0-17,其中“地形排水”,存在得分为18,该值可以认定为异常值。进行后续的相关处理即可。对于异常值处理的结果,我们可以采用克里斯插值、三次样条等相关处理进行插值即可

问题 1. 请分析附件 train.csv 中的数据,分析并可视化上述 20 个指标中,哪些指标与洪水的发生有着密切的关联?哪些指标与洪水发生的相关性不大?并分析可能的原因,然后针对洪水的提前预防,提出你们合理的建议和措施。

步骤 1: 相关性分析

1. 计算相关系数:

    - 使用皮尔逊相关系数计算各指标与洪水发生概率之间的相关性。

    - 可以选择使用Spearman或Kendall相关系数进行补充分析。

2. 可视化相关性:

    - 使用Seaborn绘制相关性矩阵热力图,直观展示各指标之间的相关性。

- 分析哪些指标与洪水发生概率的相关性较强,哪些指标相关性较弱。

 

步骤 2: 数据可视化

1. 散点图与回归分析:

    - 绘制每个指标与洪水发生概率的散点图,观察数据分布和趋势。

    - 使用线性回归或其他回归方法拟合数据,分析指标与洪水发生概率的关系。

2. 箱线图与分布图:

    - 使用箱线图展示不同指标在不同洪水发生概率区间内的分布情况。

- 使用直方图和密度图分析各指标的分布特征。

 步骤 3: 文字描述

1. 指标分析:

    - 根据相关性分析和可视化结果,讨论各指标对洪水发生的潜在影响机制。

    - 分析可能的人为因素和自然因素对洪水发生的影响。

2. 提出建议:

    - 针对高相关性指标,提出相应的洪水提前预防措施,如加强河流管理、改善排水系统、控制森林砍伐等。

问题 2. 将附件 train.csv 中洪水发生的概率聚类成不同类别,分析具有高、中、低风险的洪水事件的指标特征。然后,选取合适的指标,计算不同指标的权重,建立发生洪水不同风险的预警评价模型,最后进行模型的灵敏度分析。

步骤1: 聚类分析

1. K-means聚类:

    - 使用K-means算法将洪水发生概率分为高、中、低三个风险类别。

    - 对数据进行聚类前的标准化处理,以提高聚类效果。

2. 聚类结果分析:

    - 分析不同类别的指标特征,找出各类别之间的显著差异。

    - 使用可视化方法展示聚类结果,如雷达图、箱线图等。

步骤 2: 权重计算与模型建立

1. 特征选择与权重计算:

    - 使用信息增益、Gini系数等特征选择方法,计算不同指标的权重。

    - 选取重要指标,建立加权和的洪水风险评估模型。

2. 模型灵敏度分析:

    - 通过改变模型参数或去除某些指标,分析模型预测结果的变化。

- 评估模型的鲁棒性和敏感性,确保模型在不同条件下的稳定性。

特征重要性柱状图

问题 3. 基于问题 1 中指标分析的结果,请建立洪水发生概率的预测模型,从 20 个指标中选取合适指标,预测洪水发生的概率,并验证你们预测模型的准确性。如果仅用 5 个关键指标,如何调整改进你们的洪水发生概率的预测模型?

步骤1: 特征选择与模型建立

1. 特征选择:

    - 根据问题1的分析结果,选取与洪水发生概率关系密切的指标。

    - 尝试多种机器学习模型,如线性回归、决策树、随机森林、XGBoost等,建立洪水发生概率的预测模型。

2. 模型训练与优化:

    - 使用交叉验证和网格搜索优化模型参数,选择最优模型。

    - 评估模型的预测精度,确保模型的泛化能力。

步骤2: 模型验证与改进

1. 模型验证:

    - 使用 `train.csv` 中的部分数据进行训练,其余数据进行验证,评估模型的预测精度。

    - 分析预测误差,优化模型结构和参数。

2. 关键指标模型:

    - 如果仅使用5个关键指标,调整模型结构,重新训练和验证模型。

    - 比较不同模型的预测效果,选择最佳方案。

 

问题 4. 基于问题 2 中建立的洪水发生概率的预测模型,预测附件 test.csv 中

所有事件发生洪水的概率,并将预测结果填入附件 submit.csv 中。然后绘制这 74

多万件发生洪水的概率的直方图和折线图,分析此结果的分布是否服从正态分布。

 步骤1: 预测与提交结果

1. 模型预测:

    - 使用问题3中选定的最佳模型,预测 `test.csv` 中每个事件的洪水发生概率。

    - 将预测结果填入 `submit.csv` 文件中。

 步骤2: 分布分析

1. 直方图与折线图:

    - 绘制74万件洪水事件的概率直方图和折线图,分析洪水发生概率的分布情况。

    - 使用正态性检验方法(如Shapiro-Wilk检验),判断预测结果是否符合正态分布。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/369755.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java数据结构-树的面试题

目录 一.谈谈树的种类 二.红黑树如何实现 三.二叉树的题目 1.求一个二叉树的高度,有两种方法。 2.寻找二叉搜索树当中第K大的值 3、查找与根节点距离K的节点 4.二叉树两个结点的公共最近公共祖先 本专栏全是博主自己收集的面试题,仅可参考&#xf…

pandas,dataframe使用笔记

目录 新建一个dataframe不带列名带列名 dataframe添加一行内容查看dataframe某列的数据类型新建dataframe时设置了列名,则数据类型为object dataframe的保存保存为csv文件保存为excel文件 dataframe属于pandas 新建一个dataframe 不带列名 df pd.DataFrame() 带…

gda动态调试-cnblog

忽的发现gda有动态调试功能 动态监听返回值 框柱指定方法,选择调试方法,gda会自动监听函数的返回值,例如 自定义frida脚本 gda会自动生成hook该函数的frida脚本

SpringBoot学习06-[SpringBoot与AOP、SpringBoot自定义starter]

SpringBoot自定义starter SpringBoot与AOPSpringBoot集成Mybatis-整合druid在不使用启动器的情况下,手动写配置类进行整合使用启动器的情况下,进行整合 SpringBoot启动原理源码解析创建SpringApplication初始化SpringApplication总结 启动 SpringBoot自定义Starter定…

matplotlib下载安装

matplotlib下载安装过程同之前写的pygame很类似。 Pygame下载安装 python官网 1.搜索matplotlib 直接点进去 查看历史版本,因为新版本可能出现与python不匹配问题。 我选择3.6.3版本,因为我安装的python是3.8,可以匹配版本。同时window操…

Android - 模拟器

Android SDK 包括一个在您的计算机上运行的虚拟移动设备模拟器。 该模拟器可让您在不使用物理设备的情况下对 Android 应用程序进行原型设计、开发和测试。 在本章中,我们将探索真实安卓设备中存在的模拟器中的不同功能。 创建 AVD 如果您想模拟真实设备&#xff0c…

赋能心理大模型,景联文科技推出高质量心理大模型数据库

生成式大模型作为当前发展势头最为强劲的人工智能前沿技术,其在临床心理学领域中的创新应用已成为社会关注和医学聚焦的热点之一。 心理大模型在落地应用过程中可能面临的痛点主要包括以下几个方面: 数据隐私与安全:确保敏感的个人信息在模型…

第一次的pentest show总结

第一次的pentest show总结 前言 开始之前,我特别感谢TryHackMe(英)、HackTheBox(美)、zero-point security(英)、offsec(美)等平台,使我们能够通过网络以线上的方式学习与练习,打破传统线下各地区教育资源差异大的限制,对网络教…

磁钢生产领域上下料解决方案

随着智能制造技术的不断革新,磁钢生产领域正逐步引入自动化生产线。然而,传统的人工上下料方式存在诸多问题,难以满足现代生产需求。富唯智能提出了一款复合机器人磁钢上下料解决方案,通过先进的自动化技术,提高生产效…

海量设备集中运维,向日葵远程控制赋能农牧产品加工产业链

产业规模越大,单位成本就越低,这是一个广泛存在的商业规律。 在诸多行业中,农牧业的这种“规模效应”尤为明显,这使得在农牧行业内逐渐发展出许多横跨产业链上下游的大型企业集团,业务甚至覆盖相关产业设备的设计与生…

【Odoo开源ERP】别把ERP与进销存软件混为一谈

导读:企业使用ERP软件能够实现管理升级,多方信息集成,按照既定策略逻辑运算,生成计划建议,减少人力成本,提高准确率的同时提高经营能力。 ERP,是MRP II的下一代软件,除了MRP II已有的…

DataWhale-吃瓜教程学习笔记 (七)

学习视频**:第6章-支持向量机_哔哩哔哩_bilibili 西瓜书对应章节: 第六章 支持向量机 - 算法原理 几何角度 对于线性可分数据集,找距离正负样本距离都最远的超平面,解是唯一的,泛化性能较好 - 超平面 - 几何间隔 例…

网络爬虫(二) 哔哩哔哩热榜高频词按照图片形状排列

我们有时候需要爬取结果生成为自定义的词云图 生成自定义的词云图通常需要以下步骤: 1. 爬取数据:使用爬虫工具或库,如requests、BeautifulSoup等,可以爬取网页、论坛、社交媒体等平台上的文本数据。 2. 数据预处理&#xff1a…

学习笔记(linux高级编程)10

IPC 进程间通信 interprocess communicate 三大类: 1、古老的通信方式 无名管道 有名管道 信号 2、IPC对象通信 system v BSD suse fedora kernel.org 消息队列(用的相对少,这里不讨论) 共享内存 信号量集 3、socket通信 网络通信 特…

windows电脑网络重置后wifi列表消失怎么办?

我们的电脑网络偶尔会出现异常,我们通常会下意识选择网络诊断,运行完诊断后一般会让我们选择重置网络,然而,重置后wifi列表突然消失,无法愉快地上网了,找了一圈,都说是更改适配器选项&#xff0…

【东奥会计-注册安全分析报告】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞…

JavaScript(6)——数据类型转换

为什么需要类型转换? JavaScript是弱数据类型:JavaScript不知道变量到底属于哪种数据类型,只有赋值了才清除 使用表单,prompt获取的数据默认为字符串类型,此时不能直接进行算数运算 隐式转换 某些运算符被执行时&am…

gitLab使用流程

标题1.配置账户 git config --global user.name git config --global user.email mygitlabmali.cn 标题2.生成秘匙 ssh-keygen -t rsa -C “mygitlabmail.cn” 。 //输入命令后一直回车 ,输入命令后一直回车(密码可以不填),至…

证券交易系统中服务器监控系统功能设计

1.背景介绍 此服务器监控系统的目的在于提高行情服务器的监管效率,因目前的的行情服务器,包括DM、DT、DS配置数量较多,巡回维护耗时较多,当行情服务器出现异常故障,或者因为网络问题造成数据断线等情况时,监…

k8s record 20240705

k8s 安全管理 request 是1g,你得不到要求,我就不创建了,这就是准入控制二次校验 SA就是serviceAccount。 内部是SA和 token, 外部用户进来就是 .kube/config文件 namespace下的是role,整个集群是 ClusterRole. 动作就是Binding li…