准确率调整研究中心

1. 数据预处理

  • 填充缺失值:你已经填充了 AgeEmbarkedFare 的缺失值。如果你没有处理 Cabin 字段(可以用 'Unknown' 填充,或者删除该列),可以考虑处理它。
  • 特征编码
    • 使用 One-Hot EncodingSexEmbarked 进行编码。
    • 使用 Label EncodingOne-Hot EncodingPclassEmbarked 进行编码。
    • Title(称谓)特征(例如:Mr., Mrs., Miss.)是个有用的特征,可以从 Name 字段提取出来进行编码。
  • 年龄分类:将 Age 划分为多个区间(例如:0-18, 19-35, 36-50 等),然后将其作为类别变量。

2. 特征工程

  • 创建新特征:从现有特征中提取更多信息:
    • FamilySize:将 SibSp(兄弟姐妹/配偶数)与 Parch(父母/子女数)相加,得出乘客家庭的大小。
    • IsAlone:基于 FamilySize,如果乘客家庭大小为 1,则设置为 1(表示单独旅行),否则为 0。
    • AgeClass:根据 AgePclass 创建一个新的特征,可能会有助于区分不同社会阶层和年龄段的生还概率。

3. 模型选择

  • 基线模型:从简单的模型(如 逻辑回归决策树)开始,如果效果不好再考虑更复杂的模型。
  • 集成学习
    • 随机森林(Random Forest)和 梯度提升树(如 XGBoost 或 LightGBM)通常能显著提升准确率。
    • 你可以考虑集成多种模型的结果,使用投票法或堆叠(Stacking)方法进一步提高模型表现。

4. 超参数调优

  • 使用 GridSearchCVRandomizedSearchCV 来调整模型的超参数。
  • 调整 XGBoostLightGBM 的参数,如 max_depthlearning_raten_estimators 等。

5. 正则化与防止过拟合

  • L1/L2 正则化:对于线性模型,添加正则化项帮助避免过拟合。
  • Early Stopping:如果使用深度学习模型,可以使用早停技术避免过拟合。
  • 交叉验证:使用交叉验证评估模型在不同数据划分上的表现,确保模型的泛化能力。

6. 模型集成

  • 投票法(Voting Classifier):将多个模型(如逻辑回归、随机森林、XGBoost)进行组合,使用多数投票方法提高准确率。
  • Stacking:使用简单模型(如逻辑回归、决策树等)作为基学习器,然后训练一个更复杂的模型(如 XGBoost 或深度学习模型)作为终极预测器。

一、数据预处理

1.特征编码

对于泰坦尼克号的案例,刚开始我是使用单纯的数值对应,结果的准确率是0.622,然后我通过one-hot编码后准确率达到0.72248提升了0.10。下面探究原因:

  1. 数值编码,只是单纯的对性别如果是男记为0,如果是女记为1,那么如果有两个人一个男一个女,那么他们对应的性别特征如下:第一个人:性别:1,第二个人:性别:0。这会产生一个问题,就是当你把这个特征输入到模型中后,如果是是男生的话,就说明预测的值与性别特征无关,也就是说对于男生的这个样本的性别特征是0,就会让模型认为,对于这个样本的性别特征对于预测值的影响不大,导致准确率低。模型会 错误地认为 0 和 1 之间存在顺序关系,就像它们是坐标轴上的两个点,模型会把这种顺序理解为一种有意义的数值差异,从而让模型学习到 0 和 1 之间的变化对预测结果有影响。
  2. one-hot编码,one-hot编码会把性别编码成[0,1],编码成一个一维的长度为二的向量,这样不管是男是女,特征都会对预测值有影响,就是把性别特征更细分了,所有模型可以更好的学到性别与预测值的关系。

解决方案:当我们发现某个特征在数据上表现出了顺序性,但实际上不存在这样的顺序性,当类别之间有明显顺序时,可以考虑使用 Ordinal Encoding 或 One-Hot Encoding 来避免这种问题。


注意:如果你在训练过程中没有设置 早期停止,模型可能会继续训练,即使它已经达到最优或接近最优的性能。过度训练通常会导致性能下降,特别是在验证集上。也会产生过拟合


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/471115.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【算法一周目】双指针(2)

目录 有效三角形的个数 解题思路 C代码实现 和为s的两个数字 解题思路 C代码实现 三数之和 解题思路 C代码实现 四数之和 解题思路 C代码实现 有效三角形的个数 题目链接:611. 有效三角形的个数题目描述:给定一个包含非负整数的数组nums&…

基于Python的网上银行综合管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…

C++编程技巧与规范-类和对象

类和对象 1. 静态对象的探讨与全局对象的构造顺序 静态对象的探讨 类中的静态成员变量(类类型静态成员) 类中静态变量的声明与定义&#xff08;类中声明类外定义&#xff09; #include<iostream> using namespace std;namespace _nmspl {class A{public:A():m_i(5){…

边缘的检测

边缘检测效果&#xff0c;是一种用于突出图像中的边缘&#xff0c;使物体的轮廓更加明显的图像处理技术&#xff0c;边缘检测的主要目的是找到图像中亮度变化显著的区域&#xff0c;这些区域通常对应于物体的边界&#xff0c;边缘检测相当于利用 Shader 代码自动给屏幕图像进行…

HP G10服务器ESXI6.7告警提示ramdisk tmp已满

物理服务器是HP G10 VCENTER内两台服务器报错提示ramdisk"tmp"已满&#xff0c;无法写入文件 登录ESXI命令行后发现两台主机的/tmp目录都没有空间了 定位到是ams-bbUsg.txt文件占用了大量的空间 1、关闭集群的DRS功能 2、迁移当前主机上面运行的所有虚拟机至其他主…

深度学习中的感受野:从基础概念到多层次特征提取

在深度学习&#xff0c;特别是计算机视觉任务中&#xff0c;感受野&#xff08;Receptive Field&#xff09;是一个至关重要的概念。它指的是在神经网络中某一层的神经元在输入图像上“看到”的区域大小。感受野的大小影响了网络能捕捉的特征层级&#xff0c;从而决定了它的特征…

Diffusion Policy——斯坦福机器人UMI所用的扩散策略:从原理到其编码实现(含Diff-Control、ControlNet详解)

前言 本文一开始是属于此文《UMI——斯坦福刷盘机器人&#xff1a;从手持夹持器到动作预测Diffusion Policy(含代码解读)》的第三部分&#xff0c;考虑后Diffusion Policy的重要性很高&#xff0c;加之后续还有一系列基于其的改进工作 故独立成本文&#xff0c;且写的过程中 …

【数据结构与算法】第12课—数据结构之归并排序

文章目录 1. 归并排序2. 计数排序3. 排序算法复杂度及稳定性分析在这里插入图片描述 1. 归并排序 分治法&#xff08;Divide and Conquer&#xff09;是一种重要的算法设计策略&#xff0c;其核心思想是将一个复杂的大问题分解为若干个小规模的子问题&#xff0c;递归地解决这些…

2024 年 Apifox 和 Postman 对比介绍详细版

Apifox VS Postman &#xff0c;当下流行的的两款 API 开发工具&#xff0c;2024 版对比&#xff01;

vue请求数据报错,设置支持跨域请求,以及2种请求方法axios或者async与await

设置跨域 通过vite创建的项目&#xff0c;一般会在你项目文件中自动生成一个名为vite.config文件&#xff0c;点击添加支持跨域的代码 import { defineConfig } from vite import vue from vitejs/plugin-vue// https://vitejs.dev/config/ export default defineConfig({plu…

【ACM出版】第四届信号处理与通信技术国际学术会议(SPCT 2024)

& 第四届信号处理与通信技术国际学术会议&#xff08;SPCT 2024&#xff09; 2024 4th International Conference on Signal Processing and Communication Technology 2024年12月27-29日 中国深圳 www.icspct.com 第四届信号处理与通信技术国际学术会议&#x…

【大数据学习 | HBASE高级】rowkey的设计,hbase的预分区和压缩

1. rowkey的设计 ​ RowKey可以是任意字符串&#xff0c;最大长度64KB&#xff0c;实际应用中一般为10~100bytes&#xff0c;字典顺序排序&#xff0c;rowkey的设计至关重要&#xff0c;会影响region分布&#xff0c;如果rowkey设计不合理还会出现region写热点等一系列问题。 …

基于微信小程序的农场管理系统的设计与实现,LW+源码+讲解

1.2 课题意义 现如今&#xff0c;信息种类变得越来越多&#xff0c;信息的容量也变得越来越大&#xff0c;这就是信息时代的标志。近些年&#xff0c;计算机科学发展得也越来越快&#xff0c;而且软件开发技术也越来越成熟&#xff0c;因此&#xff0c;在生活中的各个领域&…

学习记录:js算法(九十二):克隆图

文章目录 克隆图思路一 克隆图 给你无向 连通 图中一个节点的引用&#xff0c;请你返回该图的 深拷贝&#xff08;克隆&#xff09;。 图中的每个节点都包含它的值 val&#xff08;int&#xff09; 和其邻居的列表&#xff08;list[Node]&#xff09;。 class Node {public int…

大数据新视界 -- 大数据大厂之 Impala 性能飞跃:动态分区调整的策略与方法(上)(21 / 30)

&#x1f496;&#x1f496;&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎你们来到 青云交的博客&#xff01;能与你们在此邂逅&#xff0c;我满心欢喜&#xff0c;深感无比荣幸。在这个瞬息万变的时代&#xff0c;我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

win11 新建一个批处理,双击查看本机的IP地址

1、先上个图&#xff1a; 2、bat的代码&#xff1a; :: 获取本机 IP 地址 &#xff1a; 只显示ip echo off for /f "tokens2 delims:" %%a in (ipconfig ^| findstr /i "IP 地址") do set IP%%a echo %IP%pause 3、新建一个文件比如叫ip.bat&#xff0c;…

Spring高手之路26——全方位掌握事务监听器

文章目录 1. 什么是Spring事务监听器&#xff1f;2. 通过TransactionSynchronization 接口实现事务监听器3. 时序图&#xff1a;通过TransactionSynchronization 接口实现事务监听器4. TransactionalEventListener注解实现事务监听器5. 时序图&#xff1a;TransactionalEventLi…

QQ 小程序已发布,但无法被搜索的解决方案

前言 我的 QQ 小程序在 2024 年 8 月就已经审核通过&#xff0c;上架后却一直无法被搜索到。打开后&#xff0c;再在 QQ 上下拉查看 “最近使用”&#xff0c;发现他出现一下又马上消失。 上线是按正常流程走的&#xff0c;开发、备案、审核&#xff0c;没有任何违规&#xf…

MFC工控项目实例二十九主对话框调用子对话框设定参数值

在主对话框调用子对话框设定参数值&#xff0c;使用theApp变量实现。 子对话框各参数变量 CString m_strTypeName; CString m_strBrand; CString m_strRemark; double m_edit_min; double m_edit_max; double m_edit_time2; double …

C语言 | Leetcode C语言题解之第556题下一个更大元素III

题目&#xff1a; 题解&#xff1a; int nextGreaterElement(int n){int x n, cnt 1;for (; x > 10 && x / 10 % 10 > x % 10; x / 10) {cnt;}x / 10;if (x 0) {return -1;}int targetDigit x % 10;int x2 n, cnt2 0;for (; x2 % 10 < targetDigit; x2…