特征工程(一)

特征工程(一)

什么是特征工程

简单来讲将数据转换为能更好地表示潜在问题的特征,从而提高机器学习性能

特征工程包含的内容

  1. 转换数据的过程
  2. 特征
  3. 更好地表示潜在问题
  4. 提高机器学习性能

数据和机器学习的基础知识

数据基础

以下为数据的一个实例

其中,每行都是一个观察值,包含四个属性,其中每个属性都有属于自己的特性和变化趋势
特征工程需要接受处理多或少、宽或窄、完整或稀疏的数据,并准备好在机器学习中应用这些数据。

机器学习基础

1.监督学习
一般来说,绝大部分都是在监督学习(也可以成为预测分析)的特定上下文中提到的特征工程。监督学习算法是专门处理预测一个值的任务,通常是使用数据中的其他属性来预测余下的一个属性。
例如上面的实例中,使用其他数据,来预测FIT201
在监督学习中,我们一般将数据集中希望预测的属性(一般是一个,也存在多个)叫做标签(label),其余属性叫做特征(feature)。
2.无监督学习
监督学习的目的是预测,我们利用数据的特征对label进行预测,提供有效信息。如果不是要通过探索结构进行预测,那想要从数据中提取结构。要做到后者,一般对数据的数值矩阵或迭代过程应用数学变换,提取新的特征。具体来讲,就是将数据集细分为不同的类型或类别,以供后续任务进行分析与应用。

机器学习算法和特征工程的评估

注意,在很多地方,特征和属性通常有明显的区分。属性一般是表格数据的列,特征则一般只指代对机器学习算法有益的属性。换句话说,就是存在有些属性对机器学习系统不一定有益,甚至有害。

特征工程的评估步骤

  1. 在应用任何特征之前,得到机器学习模型的基准;
  2. 应用在一种或多种特征工程;
  3. 对于每种特征工程,获取一个性能指标,并与基准性能进行对比;
  4. 如果性能的增量(变化)大于某个阈值(一般由我们定义),则认为这种特征工程是有益的,并在机器学习流水线上使用;
  5. 性能的改变一般以百分比计算(如果基准性能从40%的准确率提高到76%的准确率,那么改变是90%)

评估监督学习算法

当进行监督学习是,性能直接与模型利用数据结构的能力,以及使用数据结构进行恰当预测的能力,一般而言,可以将监督学习分为两种更具体的类型:分类(classification)、回归(regression)

  1. 分类的评估指标:
    常见的评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 score、ROC曲线(Receiver Operating Characteristic Curve)等
  2. 回归的评估指标:
    平均绝对误差(MAE, Mean Absolute Error)这个指标是对绝对误差损失的预期值
    平均绝对百分比误差(MAPE, Mean Absolute Percentage Error)这个指标是对相对误差损失的预期值.所谓相对误差,就是绝对误差和真值的百分比.
    均方误差(MSE, Mean Squared Error)该指标对应于平方(二次)误差的期望.均方误差根或均方根误差(RMSE, Root Mean Squared Error)该指标对应于平方(二次)误差的期望.
    R Squared(r2 score)R Squared又叫可决系数(coefficient of determination)也叫拟合优度,反映的是自变量x对因变量y的变动的解释的程度.越接近于1,说明模型拟合得越好.
    这里暂时不详细展开,等后续补充

评估无监督学习算法

常见无监督聚类算法,使用轮廓系数作为测量指标。再此之外,还存在其他的评估方法,在此暂不展开。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/233646.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络(超级详细笔记)

使用教材计算机网络(第8版)(谢希仁) 第一章:概述 第二章:物理层 第三章:数据链路层 第四章:网络层 第五章:运输层 第六章:应用层 目…

适合培训协会搭建的培训机构管理系统开发方案

一、项目背景与目标 (一)项目背景 培训学校教务管理系统是培训机构数字化管理的必备系统,该系统功能大大提升机构办学的管理效率、提升机构在家长心中的专业度,市面上的培训机构管理系统收费越来越贵,为了给协会内培…

【陈老板赠书活动 - 21期】- Python树莓派编程从零开始(第3版)

陈老老老板🧙‍♂️ 👮‍♂️本文专栏:赠书活动专栏(为大家争取的福利,免费送书) 🤴本文简述:活就像海洋,只有意志坚强的人,才能到达彼岸。 👳‍♂️上一篇文章&#xff…

微信小程序实战-01翻页时钟-1

文章目录 前言需求分析功能设计界面设计界面结构设计界面样式设计 逻辑设计 单页功能实现运行结果 前言 我经常在手机上用的一款app有一个功能是翻页时钟,基于之前学习的小程序相关的基础内容,我打算在微信小程序中也设计一个翻页时钟功能,J…

ArcGIS小技巧|四种计算图斑面积的方法

ArcGIS中有多种方法可计算出图斑面积,本文总结了四种方法,是否可堪称史上最全? 1、计算几何 这是最适合非专业人士的方法,直接利用ArcGIS中的计算几何功能进行计算。 a、首先添加一double类型字段,用来存储面积数值…

移动通信原理与关键技术学习(2)

1.多径信道滤波器表示,多径信道可以认为是线性时变滤波器,接收信号为发送信号与信道冲激响应的卷积。 2.调制就是对信号源的信息进行处理加到载波上,使其变为适合于信道传输的形式的过程,就是使载波随信号而改变的技术。 3.进行调…

基于 Python+Neo4j+医药数据,构建了一个知识图谱的自动问答系统

知识图谱是目前自然语言处理的一个热门方向。目前知识图谱在各个领域全面开花,如教育、医疗、司法、金融等。 本项目立足医药领域,以垂直型医药网站为数据来源,以疾病为核心,构建起一个包含7类规模为4.4万的知识实体,…

【MIdjourney】图像角度关键词

本篇仅是我个人在使用过程中的一些经验之谈,不代表一定是对的,如有任何问题欢迎在评论区指正,如有补充也欢迎在评论区留言。 1.侧面视角(from side) 侧面视角观察或拍摄的主体通常以其侧面的特征为主要焦点,以便更好地展示其轮廓…

Linux文件系统和日志分析

一、inode表结构 1. inode表 inode号在同一个设备上是唯一的。 inode号是有限资源,它的大小和磁盘大小有关。 访问文件的基本流程 根据文件夹的文件名和inode号的关系找到对应的inode表,再根据inode表(属主 属组)当中的指针找到磁…

Python 全栈体系【四阶】(十一)

第四章 机器学习 机器学习: 传统的机器学习:以算法为核心深度学习:以数据和计算为核心 感知机 perceptron(人工神经元) 可以做简单的分类任务掀起了第一波 AI 浪潮 感知机不能解决线性不可分问题,浪潮…

c# 学习笔记 - 委托(Delegate)

文章目录 1. 委托1.1 委托概述1.2 委托使用1.3 委托的传播 2. 匿名方法2.1 匿名方法概述2.2 匿名方法 1. 委托 1.1 委托概述 委托简介 委托就是对方法的引用,可以理解为例如整型变量的容器可以存储整形数据,委托就是某种方法的容器,可以用来…

解决Android AAPT: error: resource android:attr/lStar not found. 问题

错误信息 /xxx/gjc/.gradle/caches/transforms-2/files-2.1/930c42acd29d295ce5bc495c3b84423e/core-1.9.0/res/values/values.xml:104:5-113:25: AAPT: error: resource android:attr/lStar not found. not found 资源位置 场景 原Android studio中的项目都是在git上面拉的老项…

React Admin 前端脚手架之ant-design-pro

文章目录 一、React Admin 前端脚手架选型二、React Admin 前端脚手架之ant-design-pro三、ant-design-pro使用步骤四、调试主题五、常用总结(持续更新)EditableProTable组件 常用组件EditableProTable组件 编辑某行后,保存时候触发发送请求EditableProTable组件,添加记录提…

关于简单的数据可视化

1. 安装数据可视化必要的openpyxl、pandas,matplotlib等软件包 使用清华源,命令如下: pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn pandaspip install -i https://pypi.tuna.tsingh…

uni-app 从入门到精通 3天快速掌握 文字版 学习专栏

大家好,我是java1234小锋老师。 近日锋哥又卷了一波课程,uni-app 从入门到精通 3天快速掌握教程,文字版视频版。三天掌握。 2023版uniapp从入门到上天视频教程(Java后端无废话版),火爆更新中..._哔哩哔哩_bilibili2023版uniapp从…

7.27 SpringBoot项目实战 之 整合Swagger

文章目录 前言一、Maven依赖二、编写Swagger配置类三、编写接口配置3.1 控制器Controller 配置描述3.2 接口API 配置描述3.3 参数配置描述3.4 忽略API四、全局参数配置五、启用增强功能六、调试前言 在我们实现了那么多API以后,进入前后端联调阶段,需要给前端同学提供接口文…

网安面试三十到题(结束)

121 有文件上传了漏洞了,linux下怎么找xx.conf的文件 目录遍历,目录扫描 122 反序列化漏洞原理 ## 你要把别人序列化好的文件进行反序列化进行利用,但是在序列化的过程中,被别人注入了攻击代码、魔 法函数之类的,当你反序列化的时…

大数据可视化Web框架——飞致云Dataease在Windows端的安装指南(多图说明版)V2.2最新版

DataEase开源代码在Windows系统开发环境搭建与调试指南_怎么部署dataease 2.0-CSDN博客https://blog.csdn.net/tllhc01/article/details/135220598?spm1001.2014.3001.5502参考这一篇,基于dataease2.2源码进行构建 需要先下载三个文件,且版本一一对应均…

网络路由跟踪工具

随着企业网络需求的增长,组织发现监控和管理其网络基础设施变得越来越困难。网络管理员正在转向其他工具和资源,这些工具和资源可以使他们的工作更轻松一些,尤其是在故障排除方面。 目前,网络管理员主要使用简单、免费提供的实用…

腾讯云com域名注册1元一年,非常可以!

腾讯云com域名注册优惠价格1元首年,条件是企业新用户,个人新用户注册com域名是33元首年,第二年续费价格85元一年。活动 txybk.com/go/domain-sales 活动打开如下图: 腾讯云com域名注册优惠价格 腾讯云com域名注册原价是85元一年&a…