机器学习-特征工程

机器学习-特征工程

news/2024/12/24 10:19:58/文章来源:https://blog.csdn.net/lalajh/article/details/134131098

一、特征工程介绍

1.1 什么是特征

数值特征（连续特征）、文本特征（离散特征）

1.2 特征的种类

1.3 特征工程

特征是机器学习可疑直接使用的，模型和特征之间是一个循环过程；

实际上特征工程就是将原始数据处理成机器学习可以直接使用数据的过程；

特征工程，降噪、将特征转化为数字，更好构建数学模型。

二、特征预处理

现实中数据集可能杂乱，如存在异常值、缺失值（非常大或小），这个时候是没法做特征工程的，需要数据预处理后，在做特征工程，这样效果更好！

特征预处理的⽅法

2.1 缺失值处理

⼀般缺失值可以⽤均值、中位数、众数等填充，或者直接将缺失值当做⼀个特定的值来对待。还可以利⽤⼀些复杂的插值⽅法，如样条插值等来填充缺失值。如果缺失值不多，还可以将包含缺失值的样本丢弃。

2.2 归⼀化

不同特征之间由于量纲不⼀样，数值可能相差很⼤，直接将这些差别极⼤的特征灌⼊模型，会导致数值⼩的特征根本不起作⽤，⼀般我们要对数值特征进⾏归⼀化处理，常⽤的归⼀化⽅法有min-max归⼀化、分位数归⼀化、正态分布归⼀化、⾏归⼀化等。

2.3异常值与数值截断

对于数值型特征，可能会存在异常值，包括异常⼤和异常⼩的值。在统计数据处理中有所谓3σ准则，即对于服从正态分布的随机变量，该变量的数值分布在（μ-3σ,μ+3σ)中的概率为0.9974，这时可以将超出该范围的值看成异常值，采⽤向上截断 (⽤μ-3σ)和向下截断(⽤μ+3σ)的⽅法来为异常值赋予新的值。对于真实业务场景，可能还要根据特征变量的实际意义来进⾏处理。

2.4⾮线性变换

有时某个属性不同值之间差别较⼤(⽐如年收⼊)，有时为了让模型具备更多的⾮线性能⼒(特别是对于线性模型)，这两种情况下都需要对特征进⾏⾮线性变换，⽐如值取对数(值都是正的情况下)作为最终的特征，也可以采⽤多项式、⾼斯变换、logistic变换等转化为⾮线性特征。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/176972.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

3 Tensorflow构建模型详解

3 Tensorflow构建模型详解

上一篇：2 用TensorFlow构建一个简单的神经网络-CSDN博客本篇目标是介绍如何构建一个简单的线性回归模型，要点如下： 了解神经网络原理构建模型的一般步骤模型重要参数介绍 1、神经网络概念接上一篇，用tensorflow写了一个猜测西…

阅读更多...

微信小程序：自定义组件传值——获取手机验证码

微信小程序：自定义组件传值——获取手机验证码

一：遇到的问题通过自己自定义的组件编写的表单，发现传值不了，点击后收到的值为空。二：创建组件先在根目录创建components文件夹，创建img-verify文件夹（这个是我取的组件名字），在…

阅读更多...

什么是 DevOps

什么是 DevOps

DevOps是一套融合软件开发（Dev）和 IT 运营（Ops）的实践，旨在缩短应用程序开发周期并确保以高软件质量持续交付，通过采用 DevOps 实践，您可以帮助组织更可靠、更快速、更高效地交付软件。什么是…

阅读更多...

一百九十八、Java——IDEA项目中有参构造、无参构造等快捷键（持续梳理中）

一百九十八、Java——IDEA项目中有参构造、无参构造等快捷键（持续梳理中）

一、目的由于IDEA项目中有很多快捷键，可以很好的提高开发效率，因此整理一下二、快捷键 （一）快捷键生成public static void main(String[] args) {} 快捷键：psvm （二）快捷键在test中创建cn…

阅读更多...

MacOS安装git

MacOS安装git

文章目录通过Xcode Command Lines Tool安装(推荐)终端直接运行git命令根据流程安装先安装Command Lines Tool后再安装git 官网下载二进制文件进行安装官方国外源下载二进制文件(不推荐)国内镜像下载二进制文件(推荐)安装git 通过Xcode Command Lines Tool安装(推荐) 简单来讲C…

阅读更多...

ubuntu(18.04)中架设HiGlass docker镜像服务，已尝试mcool、bedpe、wig格式文件

ubuntu(18.04)中架设HiGlass docker镜像服务，已尝试mcool、bedpe、wig格式文件

前言使用到的软件 docker 文档 ： https://www.docker.com/ HiGlass 文档：http://docs.higlass.io/higlass_docker.html#running-locally https://github.com/higlass/higlass-dockerhiglass-docker 地址：https://github.com/higla…

阅读更多...

17.基干模型Swin-Transformer解读

17.基干模型Swin-Transformer解读

文章目录 SWin-Transformer解读1.基础介绍关于Shifted Window based Self-Attention相对位置偏置网络整体结构和层级特征欢迎访问个人网络日志🌹🌹知行空间🌹🌹 SWin-Transformer解读 1.基础介绍 Swin-Transformer是2021年03月微软亚洲研究院提交的论文中提出的，比V…

阅读更多...

Arduino开发

Arduino开发

文章目录 Arduino IDE 的使用1. 使能编译以及烧录的LOG：2. 下载配置3. 下载 Arduino指令程序下载步骤通过下载器下载通过串口下载关于Arduino IDE工程生成的二进制文件对比Tools-->burn bootloader 和 ArduinoISP例程的区别自带例程 Arduino IDE 的使用 1. 使…

阅读更多...

【发表案例】2区正刊，网络安全、智能系统领域，2个月3天录用，11天见刊，16天检索！

【发表案例】2区正刊，网络安全、智能系统领域，2个月3天录用，11天见刊，16天检索！

计算机类SCIE 【期刊简介】IF：4.0-5.0，JCR2区，中科院3区【检索情况】SCIE 在检，正刊【征稿领域】提高安全性和隐私性的边缘/云的智能方法的研究，如数字孪生等【截稿日期】2023.11.30 录用案例：2个月…

阅读更多...

SpringBoot / Vue 对SSE的基本使用

SpringBoot / Vue 对SSE的基本使用

一、SSE是什么？ SSE技术是基于单工通信模式，只是单纯的客户端向服务端发送请求，服务端不会主动发送给客户端。服务端采取的策略是抓住这个请求不放，等数据更新的时候才返回给客户端，当客户端接收到消息后，再…

阅读更多...

恒驰服务 | 华为云数据使能专家服务offering之数仓建设

恒驰服务 | 华为云数据使能专家服务offering之数仓建设

恒驰大数据服务主要针对客户在进行智能数据迁移的过程中，存在业务停机、数据丢失、迁移周期紧张、运维成本高等问题，通过为客户提供迁移调研、方案设计、迁移实施、迁移验收等服务内容，支撑客户实现快速稳定上云，有效降低时间成本…

阅读更多...

IntelliJ IDEA快捷键sout不生效

IntelliJ IDEA快捷键sout不生效

1.刚下载完idea编辑器时，可能idea里的快捷键打印不生效。这时你打开settings 2.点击settings–>Live Templates–>找到Java这个选项，点击展开 3.找到sout 4.点击全选，保存退出就可以了 5.最后大功告成！

阅读更多...

物联网整体框架有哪些层面？

物联网整体框架有哪些层面？

物联网是当前非常火热的话题，各个行业对物联网的关注和投入力度也很大，一些互联网巨头都在紧锣密鼓的布局物联网产业，抢占市场先机。物联网的整体构架大致可以分为以下四个层面： 1.感知识别层感知层是物联网整体架构的基础&…

阅读更多...

基于springboot实现学生就业管理系统项目【项目源码+论文说明】

基于springboot实现学生就业管理系统项目【项目源码+论文说明】

基于springboot实现学生就业管理系统演示摘要随着信息化时代的到来，管理系统都趋向于智能化、系统化，学生就业管理系统也不例外，但目前国内仍都使用人工管理，市场规模越来越大，同时信息量也越来越庞大，人…

阅读更多...

【安装】自建Rustdesk Server

【安装】自建Rustdesk Server

文章目录 RustDesk说明RustDesk优点RustDesk相关链接非Docker基于CentOSRustDesk默认程序占用端口说明启动 hbbr 是中继服务器启动 hbbs 是ID服务器客户端配置编写启动脚本hbbr、hbbs命令详细说明 RustDesk说明 RustDesk优点自建服务端。搭建在自己的云服务器就相当于独享高…

阅读更多...

antv/g6 节点、及自定义节点

antv/g6 节点、及自定义节点

节点 AntV G6 中内置节点支持的通用属性通常包括以下几个： id：节点的唯一标识符。 x 和 y：节点的位置坐标。 label：节点的标签文本。 style：节点的样式，用于设置节点的外观，可以包括填充颜色…

阅读更多...

windows系统卸载mysql

windows系统卸载mysql

1. win r 输入 control 打开控制面板 2.搜索mysql，删除搜索内容 3.删除相应路径下的mysql文件夹C:\Program Files C:\ProgramData 4.删除注册表，win r 输入 regedit 打开注册表 5.搜索MySql 删除掉完成

阅读更多...

高等数学啃书汇总重难点（十）重积分

高等数学啃书汇总重难点（十）重积分

方法性的一章，看着唬人，实际上定积分学得熟练，就可以很轻松的掌握这一章的内容，重点在于计算各种坐标下的二重或三重积分~ 1.几何意义 2.定义 3.性质 4.直角坐标计算二重积分 5.极坐标计算二重积分 6.三重积分 7.重积分的应用

阅读更多...

国际物流常见风险如何规避_箱讯科技

国际物流常见风险如何规避_箱讯科技

外贸物流是国际贸易的重要环节，其管理和效率的高低直接影响着贸易的成本和效益。因此，外贸企业应该重视物流的组织和管理，提高物流运作的效率。国际物流基础知识 01什么是“双清包税”和“双清不包税” 双清包税上门又叫双清包税到门&…

阅读更多...

论文翻译-ImageNet Classiﬁcation with Deep Convolutional Neural Networks

论文翻译-ImageNet Classiﬁcation with Deep Convolutional Neural Networks

[toc] 前言 AlexNet是是引领深度学习浪潮的开山之作，即使是我们现在进入了ChatGPT时代，这篇论文依然具有一定的借鉴意义。AlexNet的作者是多伦多大学的Alex Krizhevsky等人。Alex Krizhevsky是Hinton的学生。网上流行说 Hinton、LeCun和Bengio是神经网…

阅读更多...

最新文章

推荐文章