机器学习(三)

什么是特征工程

特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。

  • 意义︰会直接影响机器学习的效果

特征工程的位置与数据处理的比较

在这里插入图片描述

  • pandas:—个数据读取非常方便以及基本的处理格式的工具
  • sklearn:对于特征的处理提供了强大的接口

sklearn 特征工程
pandas 数据清洗、数据处理

特征工程包含内容

  • 特征抽取
  • 特征预处理
  • 特征降维

什么是特征抽取

例一:
在这里插入图片描述
机器学习算法——统计方法——数学公式
文本类型—>数值

例二:
在这里插入图片描述
类型——>数值

特征提取

将任意数据(如文本或图像)转换为可用于机器学习的数字特征

注:特征值化是为了计算机更好的去理解数据

  • 字典特征提取(特征离散化)
  • 文本特征提取
  • 图像特征提取(深度学习将介绍)

特征提取API

sklearn.feature_extraction

字典特征提取

类别——>one-hot编码

作用:对字典数据进行特征值化

  • sklearn.feature_extraction.DictVectorizer(sparse=True,. . .)
    • DictVectorizer.fit_transform(X)×:字典或者包含字典的迭代器返回值:返 回sparse矩阵
    • DictVectorizer.inverse_transform(X) X:array数组或者sparse矩阵返回值:转换之前数据格式
    • DictVectorizer.get_feature_names()返回类别名称

vector 数学:向量 物理:矢量
矩阵 matrix 二维数组
向量 vector 一维数组
父类:transformer

1应用

[{i'city': '北京', ' temperature ' :100},
{ ' city ' : '上海', ' temperature ':60},
{ 'city ': '深圳', ' temperature ' :30}]

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

sparse=True返回稀疏矩阵,元组表示非0值的位置
sparse=False范围二维数组
稀疏矩阵好处就是节省内存,提高加载效率

2流程分析

  • 实例化类DictVectorizer
  • 调用fit_transform方法输入数据并转换(注意返回格式)
from sklearn.feature_extraction import DictVectorizerdef dict_demo( ) :data = [{i'city': '北京', ' temperature ' :100},{ ' city ' : '上海', ' temperature ':60},{ 'city ': '深圳', ' temperature ' :30}]#1、实例化一个转换器类transfer = DictVectorizer(sparse=False)#2、调用fit_transformdata = transfer.fit_transform(data)print("返回的结果:\n",data)#打印特征名字print("特征名字: \n",transfer.get_feature_names( ))return None

注意观察没有加上sparse=False参数的结果

pandas中的离散化的时候,也实现了类似的效果。这个处理数据的技巧叫做”one-hot“编码:
在这里插入图片描述
在这里插入图片描述

3总结
对于特征当中存在共别信息的我们都会做one-hot编码处理

4应用场景

  • 数据集当中类别特征比较多
    • 将数据集的特征——>字典类型
    • bictVectorizer转换
  • 本身拿到的数据就是字典类型

文本特征提取

作用:对文本数据进行特征值化

  • sklearn.feature_extraction.text.CountVectorizer(stop_words=[])
    • 返回词频矩阵
  • CountVectorizer.fit_transform(X) X:文本或者包含文本字符串的可迭代对象
    • 返回值:返回sparse矩阵
  • CountVectorizer.inverse_transform(X) X:array数组或者sparse矩阵
    • 返回值:转换之前数据格
  • CountVectorizer.get_feature_names()
    • 返回值:单词列表
  • sklearn.feature_extraction.text.TfidfVectorizer

1应用
我们对以下数据进行特征提取

["life is short,i like python" ,
"life is too long,i dislike python"]

在这里插入图片描述

在这里插入图片描述

没有sparse=True参数,用.toarray()
单词作为特征,统计每个样本特征词出现的个数

方法1: CountVectorizer

在这里插入图片描述
在这里插入图片描述

中文没有空格的分割
data =[“我 爱 北京 天安门”,“天安门 上 太阳 升"]
在这里插入图片描述

stop_words停用词
在这里插入图片描述在这里插入图片描述

2流程分析

  • 实例化类CountVectorizer
  • 调用fit_transform方法输入数据并转换(注意返回格式,利用toarray()进行sparse矩阵转换array数组)
from sklearn.feature_extraction.text import CountVectorizerdef text_count_demo():data = ["life is short,i like python" ,"life is too long,i dislike python"]#1、实例化一个转换器类# transfer = CountVectorizer(sparse=False)transfer = CountVectorizer( )#2、调用fit_transformdata = transfer.fit_transform(data)print("文本特征抽取的结果:\n", data.toarray())print("返回特征名字:\n",transfer.get_feature_names())return None

在这里插入图片描述
在这里插入图片描述

3jieba分词处理

  • jieba.cut()
    • 返回词语组成的生成器

需要安装下jieba库

pip3 install jieba

4案例分析
对以下三句话进行特征值化

今天很残酷,明天更残酷,后天很美好,
但绝对大部分是死在明天晚上,所以每个人不要放弃今天。我们看到的从很远星系来的光是在几百万年之前发出的,
这样当我们看到宇宙时,我们是在看它的过去。如果只用一种方式了解某样事物,你就不会真正了解它。
了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。
  • 分析
    • 准备句子,利用jieba.cut进行分词
    • 实例化CountVectorizer
    • 将分词结果变成字符串当作fit_transform的输入值
from sklearn.feature_extraction.text import Countvectorizer
import jiebadef cut_word (text):
#用结巴对中文字符串进行分词text = " ".join(list(jieba.cut(text)))return textdef text_chinese_count_demo2():data = ["今天很残酷,明天更残酷,后天很美好,
但绝对大部分是死在明天晚上,所以每个人不要放弃今天。","我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。","如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]#将原始数据转换成分好词的形式text_list = []for sent in data;text_list.append(cut_word(sent))print(text_list)#1、实例化一个转换器类#transfer = CountVectorizer(sparse=False)transfer = 	CountVectorizer()#2、调用fit_transformdata = transfer.fit_transform(text_list)print("文本特征抽取的结果:\n", data.toarray( ))print("返回特征名字:\n", transfer.get_feature_names())return None

在这里插入图片描述

关键词∶在某一个类别的文章中,出现的次数很多,但是在其他类别的文章当中出现很少

方法2:TfidfVectorizer

在这里插入图片描述
5 Tf-idf文本特征提取

  • TF-IDF的主要思想是︰如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
  • TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

TF-IDF—>重要程度 TF—>词频 IDF—>逆向文档频率
eg:
在这里插入图片描述

5.1公式

  • 词频(term frequency,tf)指的是某一个给定的词语在该文件中出现的频率
  • 逆向文档频率(inverse document frequency,idf)是一个词语普遍重要性的度量。某一特定词语的idf,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取以10为底的对数得到。
    在这里插入图片描述

5.2 API

  • sklearn.feature_extraction.text.TfidfVectorizer(stop_words=None,…)
    • 返回词的权重矩阵
      • TfidfVectorizer.fit_transform(X)
        • X:文本或者包含文本字符串的可迭代对象
        • 返回值:返回sparse矩阵
      • TfidfVectorizer.inverse_transform(X)
        • X:array数组或者sparse矩阵
        • 返回值:转换之前数据格式
      • TfidfVectorizer.get_feature_names()
        • 返回值:单词列表

5.3 流程分析
在这里插入图片描述
在这里插入图片描述

6 Tf-idf的重要性
分类机器学习算法进行文章分类中前期数据处理方式

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/303014.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机视觉——Python OpenCV BGR转HSV

这里将介绍如何使用 OpenCV 与 Python 来作彩色影像转HSV(RGB to HSV 或 BGR to HSV),在写 Python 影像处理程序时常会用到 OpenCV cvtColor 作颜色空间转换的功能,接下来介绍怎么使用 Python 搭配 OpenCV 模块来进行 RGB/BGR 转 HSV 彩色转HSV空间。 H…

(WSI分类)WSI分类文献小综述 2024

2024的WSI分类。 Multiple Instance Learning Framework with Masked Hard Instance Mining for Whole Slide Image Classification (ICCV2024) 由于阳性组织只占 Gi- gapixel WSI 的一小部分,因此现有的 MIL 方法直观上侧重于通过注意力机…

​如何使用 ArcGIS Pro 制作带贴图建筑

对于用GIS软件制作三维建筑,很多时候都是制作的建筑体块,这里为大家介绍一下怎么使用 ArcGIS Pro 制作带贴图的建筑,希望能对你有所帮助。 数据来源 教程所使用的数据是从水经微图中下载的建筑数据,除了建筑数据,常见…

https的配置和使用(以腾讯云为例)

1、注册域名 2、获取证书 3、下载证书 下载下来的证书所有格式 4、在服务器上下载nginx并配置 nginx的配置文件 如下 server {listen 80;listen 443 ssl;server_name delegate.letspiu.net.cn;ssl on; #开启ssl#指定证书位置ssl_certificate /etc/ss…

【JVM】JVM 虚拟机重点解析

JVM 虚拟机重点解析 1. JVM 组成 1.1 JVM 由那些部分组成,运行流程是什么? JVM是什么 Java Virtual Machine Java程序的运行环境(java二进制字节码的运行环境) 好处: 一次编写,到处运行 自动内存管理…

【数组】【最长距离】使循环数组所有元素相等的最少秒数

本文涉及知识点 数组 最长距离 LeetCode2808. 使循环数组所有元素相等的最少秒数 给你一个下标从 0 开始长度为 n 的数组 nums 。 每一秒,你可以对数组执行以下操作: 对于范围在 [0, n - 1] 内的每一个下标 i ,将 nums[i] 替换成 nums[i] …

Linux服务器上搭建深度学习环境(安装anaconda、创建虚拟环境、安装pytorch)

Linux服务器的搭配 Linux服务器上安装anaconda创建虚拟环境linux上安装pytorchxshell连接服务器 Linux服务器上安装anaconda 链接 创建虚拟环境 参考教程:此处 linux上安装pytorch 链接 xshell连接服务器 链接

【Ubuntu】远程连接乌班图的方式-命令行界面、图形界面

环境:ubuntu-22.04.2-amd64.iso连接工具:MobaXterm、windows自带远程桌面mstsc.exe重置root密码:Ubuntu默认root密码是随机的,需要使用命令sudo passwd 进行重置。 一、命令行界面-SSH连接 1.1 SSH远程环境搭建 # 安装ssh服务&a…

基于深度学习的电动自行车头盔佩戴检测系统

文章目录 1. 文档说明2. 运行环境说明2.1 硬件配置2.2 软件配置2.3 程序依赖库 3. 基本环境配置3.1 软件安装3.1.1 集成开发环境安装与配置3.1.2 数据库安装与配置3.1.3 编程语言安装3.1.4 CUDA和cuDNN安装与配置3.1.5 机器学习库安装 3.2 依赖库安装 4. 运行程序资源下载地 1.…

Spring与Spring Boot的区别:从框架设计到应用开发

这是我自己开发的一款小程序,感兴趣的可以体验一下: 进入正题: 在Java开发领域,Spring和Spring Boot都是备受推崇的框架,它们为开发人员提供了丰富的功能和便捷的开发体验。然而,许多人对它们之间的区别仍…

Flink WordCount实践

目录 前提条件 基本准备 批处理API实现WordCount 流处理API实现WordCount 数据源是文件 数据源是socket文本流 打包 提交到集群运行 命令行提交作业 Web UI提交作业 上传代码到gitee 前提条件 Windows安装好jdk8、Maven3、IDEA Linux安装好Flink集群,可…

登录压力测试

目录 一、准备测试数据 1.1数据库存储过程添加数据 1.2导出为csv作为测试数据(账号、密码) 二、使用fiddler抓包查看接口 2.1.抓到相关接口信息 2.2添加线程组和http请求 2.3将前面接口需要的参数去json格式化 ​2.4填写相关信息 ​ 2.5添加http…

使用阿里云试用Elasticsearch学习:4. 聚合——1

在这之前,本书致力于搜索。 通过搜索,如果我们有一个查询并且希望找到匹配这个查询的文档集,就好比在大海捞针。 通过聚合,我们会得到一个数据的概览。我们需要的是分析和总结全套的数据而不是寻找单个文档: 在大海里…

218基于matlab的有限差分法求解泊松方程

基于matlab的有限差分法求解泊松方程,采用SOR超松弛迭代法。模型采用方形区域,划分网格数为100*100,网格数可以很方便的更改。程序已调通,可直接运行。 218有限差分法 泊松方程 SOR超松弛迭代法 - 小红书 (xiaohongshu.com)

微服务学习3

目录 1.微服务保护 1.1.服务保护方案 1.1.1.请求限流 1.1.2.线程隔离 1.1.3.服务熔断 1.2.Sentinel 1.2.1.微服务整合 1.2.2.请求限流 1.3.线程隔离 1.3.1.OpenFeign整合Sentinel 1.3.2.配置线程隔离 1.4.服务熔断 1.4.1.编写降级逻辑 1.4.2服务熔断 2.分布式事…

监控指标体系:交互延迟上的探索与最佳实践

FID 在互联网高速发展的时代,用户体验已成为企业竞争的关键所在。网页性能作为用户体验的重要组成部分,直接影响着用户的满意度和工作效率。First Input Delay(FID)作为衡量网页性能的重要指标,越来越受到业界关注。今天,让我们一起来深入了解FID,探讨如何优化FID以提升…

Win10系统VScode远程连接VirtualBox安装的Ubuntu20.04.5

1.打开虚拟机,在中端中输入命令: sudo apt-get install openssh-server 安装ssh 我这里已经安装完成,故显示是这样 2.输入命令:sudo systemctl start ssh 启动远程连接 注意,如果使用VirtualBox安装的虚拟机,需要启用…

鹅厂实习offer

#转眼已经银四了,你收到offer了吗# 本来都打算四月再投实习了,突然三月初被wxg捞了(一年前找日常实习投的简历就更新了下),直接冲了,流程持续二十多天,结果是运气还不错,应该是部门比…

web安全学习笔记(8)

记一下第十二节课的内容。 一、PHP文件包含的四种方式 Include和Include_once 操作系统会读取包含的文件的内容,并将它插入主文件中,include方式的文件包含会在包含失败的情况下输出警告信息,而include_once方式会检查包含的文件是否已经被…

翻译笔实现文字识别功能的原理

翻译笔作为一种便携式设备,近年来在语言学习、旅游、商务交流等领域中逐渐受到人们的青睐。其核心功能之一便是文字识别,即将纸质或电子文档中的文字快速、准确地转化为机器可读的文本格式。那么,翻译笔是如何实现这一神奇功能的呢&#xff1…