Scikit-learn 学习思维导图

Scikit-learn 学习思维导图

Scikit-learn
数据预处理
模型选择
监督学习
无监督学习
模型评估
特征工程
数据缩放
缺失值处理
类别编码
交叉验证
网格搜索
随机搜索
线性模型
决策树
支持向量机
集成方法
聚类
降维
密度估计
准确率
混淆矩阵
ROC曲线
特征选择
特征提取
特征构造

说明

  • 数据预处理:包括数据缩放、缺失值处理和类别编码等。

  • 模型选择:通过交叉验证、网格搜索和随机搜索选择最佳模型。

  • 监督学习:涵盖线性模型、决策树、支持向量机和集成方法。

  • 无监督学习:包括聚类、降维和密度估计。

  • 模型评估:使用准确率、混淆矩阵和ROC曲线评估模型性能。

  • 特征工程:涉及特征选择、特征提取和特征构造。

  • 数据预处理

    • 数据缩放
      • StandardScaler: 标准化(z-score标准化),将特征转换为均值为0,方差为1的分布
        • 适用场景:特征分布不同量级,对异常值敏感
        • 优点:保持异常值的影响,可用于有监督学习
        • 缺点:受异常值影响较大
        from sklearn.preprocessing import StandardScaler
        scaler = StandardScaler()
        X_scaled = scaler.fit_transform(X)
        
      • MinMaxScaler: 归一化,将特征缩放到[0,1]区间
        • 适用场景:特征分布相对集中,对异常值不敏感
        • 优点:保持零值,压缩所有特征到相同尺度
        • 缺点:不能处理新数据中超出范围的值
        from sklearn.preprocessing import MinMaxScaler
        scaler = MinMaxScaler()
        X_scaled = scaler.fit_transform(X)
        
    • 缺失值处理
      • SimpleImputer: 使用均值、中位数或常数填充缺失值
        • 适用场景:数据缺失随机,比例不高
        • 优点:实现简单,计算快速
        • 缺点:可能引入偏差
        from sklearn.impute import SimpleImputer
        imputer = SimpleImputer(strategy='mean')
        X_imputed = imputer.fit_transform(X)
        
      • IterativeImputer: 使用其他特征预测缺失值
        • 适用场景:特征间存在相关性
        • 优点:考虑特征关系,填充更准确
        • 缺点:计算复杂,耗时较长
    • 类别编码
      • LabelEncoder: 将类别转换为整数编码
        • 适用场景:标签编码
        • 优点:简单直观
        • 缺点:产生序数关系
      • OneHotEncoder: 独热编码
        • 适用场景:类别特征,无序性
        • 优点:不引入序数关系
        • 缺点:产生稀疏矩阵,维度灾难

完整示例:

  • 模型选择

    • 交叉验证 (cross_val_score)
      • 适用场景:评估模型泛化性能
      • 优点:减少过拟合风险,结果更可靠
      • 缺点:计算开销大
      from sklearn.model_selection import cross_val_score
      scores = cross_val_score(model, X, y, cv=5)
      print(f"交叉验证分数: {scores.mean():.3f} (+/- {scores.std() * 2:.3f})")
      
    • 网格搜索 (GridSearchCV)
      • 适用场景:穷举超参数组合
      • 优点:可找到最优参数组合
      • 缺点:计算量大,耗时长
      from sklearn.model_selection import GridSearchCV
      param_grid = {'max_depth': [3,5,7], 'min_samples_split': [2,3,4]}
      grid_search = GridSearchCV(model, param_grid, cv=5)
      grid_search.fit(X, y)
      print(f"最佳参数: {grid_search.best_params_}")
      
  • 监督学习

    • 线性回归 (LinearRegression)
      • 适用场景:特征与目标呈线性关系
      • 优点:模型简单,可解释性强
      • 缺点:无法处理非线性关系
      from sklearn.linear_model import LinearRegression
      model = LinearRegression()
      model.fit(X, y)
      y_pred = model.predict(X_test)
      
    • 决策树 (DecisionTreeClassifier)
      • 适用场景:分类问题,特征重要性分析
      • 优点:易于理解,可处理非线性关系
      • 缺点:容易过拟合
      from sklearn.tree import DecisionTreeClassifier
      model = DecisionTreeClassifier(max_depth=3)
      model.fit(X, y)
      
  • 无监督学习

    • K均值聚类 (KMeans)
      • 适用场景:数据分组,客户细分
      • 优点:简单高效
      • 缺点:需预先指定簇数
      from sklearn.cluster import KMeans
      kmeans = KMeans(n_clusters=3)
      clusters = kmeans.fit_predict(X)
      
    • 主成分分析 (PCA)
      • 适用场景:降维,特征提取
      • 优点:可降低维度,保留主要信息
      • 缺点:特征不易解释
      from sklearn.decomposition import PCA
      pca = PCA(n_components=2)
      X_reduced = pca.fit_transform(X)
      
  • 模型评估

    • 分类报告 (classification_report)
      • 适用场景:分类模型评估
      • 优点:全面的评估指标
      • 缺点:需要真实标签
      from sklearn.metrics import classification_report
      print(classification_report(y_true, y_pred))
      
    • ROC曲线 (roc_curve)
      • 适用场景:二分类模型评估
      • 优点:可视化模型性能
      • 缺点:仅适用于二分类
      from sklearn.metrics import roc_curve, auc
      fpr, tpr, _ = roc_curve(y_true, y_pred_proba)
      roc_auc = auc(fpr, tpr)
      
  • 特征工程

    • 特征选择 (SelectKBest)
      • 适用场景:降维,去除无关特征
      • 优点:减少过拟合,提高效率
      • 缺点:可能丢失有用信息
      from sklearn.feature_selection import SelectKBest, f_classif
      selector = SelectKBest(f_classif, k=5)
      X_selected = selector.fit_transform(X, y)
      
    • 多项式特征 (PolynomialFeatures)
      • 适用场景:非线性特征构造
      • 优点:捕捉非线性关系
      • 缺点:特征数量增长快
      from sklearn.preprocessing import PolynomialFeatures
      poly = PolynomialFeatures(degree=2)
      X_poly = poly.fit_transform(X)
      

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/36656.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【开原宝藏】30天学会CSS - DAY1 第一课

下面提供一个由浅入深、按步骤拆解的示例教程,让你能从零开始,逐步理解并实现带有旋转及悬停动画的社交图标效果。为了更简单明了,以下示例仅创建四个图标(Facebook、Twitter、Google、LinkedIn),并在每一步…

【pytest框架源码分析五】pytest插件的注册流程

前文介绍到pytest整体是运用插件来实现其运行流程的。这里仔细介绍下具体过程。 首先进入main方法 def main(args: list[str] | os.PathLike[str] | None None,plugins: Sequence[str | _PluggyPlugin] | None None, ) -> int | ExitCode:"""Perform an i…

谷歌or-tools开源库入门

1.命令行编译程序 这里要说明下,直接用qt或者VS2022打开cmake工程,编译没有成功。所以,老老实实的按照官方教程来,使用命令行编译。 (1)准备 1)安装cmake,版本3.18以上&#xff0…

Python实现WYY音乐下载

一、需求背景 WYY音乐作为国内主流音乐平台,其歌曲资源丰富但下载接口存在多重加密保护。本文将通过Python结合JS逆向技术,解析其核心加密逻辑,实现免费歌曲的下载功能。 二、技术难点分析 1. 接口加密机制 通过抓包分析可知,网易云核心接口使用两次加密: 第一次:获取…

拥抱健康生活,开启养生之旅

在快节奏的现代生活中,健康养生愈发重要,它不仅能让我们保持良好状态,更是享受美好生活的基石。​ 饮食养生是健康的关键。我们应秉持均衡原则,一日三餐合理搭配。多摄入新鲜蔬果,它们富含维生素、矿物质与膳食纤维&a…

《Waf 火绒终端防护绕过实战:系统程序副本+Certutil木马下载技术详解》

目录 绕过火绒终端安全软件的详细方法 方法一:利用系统程序副本绕过命令监控 方法二:结合certutil.exe副本下载并执行上线木马 注意事项 总结 实际案例解决方案 前提条件 详细操作步骤 1. 攻击主机(VPS)上的准备工作 2.…

机器学习概要

文章目录 一、什么是机器学习 二、机器学习的种类 1. 有监督学习 2. 无监督学习 3.强化学习 三、机器学习的应用 四、机器学习的步骤 1. 数据的重要性 2. 数据和学习的种类 3. 可视化 一、什么是机器学习 机器学习指的是计算机根据给定的问题、课题或环境进行学习&a…

C# Winform 实现换肤,并自定义皮肤功能

具体实现原理详见 SkinHelp.cs类,实现了对原有控件的重绘,详见源码 public abstract class SkinHelp{private static SkinColor _currentSkinColor SkinColor.Default;private static BackgroundStripe _currentStripe BackgroundStripe.Default;priva…

基于FPGA的3U机箱模拟量高速采样板ADI板卡,应用于轨道交通/电力储能等

板卡简介: 本板为模拟量高速采样板(ADI),主要用于电机转速和相电流检测,以实现电机闭环控制。 性能规格: 电源:DC5V,DC3.3V,DC15V,DC24V FPGA:…

python爬虫概述

0x00 python爬虫概述 以豆瓣的选电影模块为例,当查看源代码搜索猫猫的奇幻漂流瓶是搜不到的 这时服务器的工作方式应该是这样的 客户端浏览器第一次访问其实服务器端是返回的一个框架(html代码) 当客户端浏览器第二次通过脚本等方式进行访问时服务器端才返回的数据…

win10 如何用我的笔记本 接网线 远程控制 台式机

1.查看笔记本ip,台式机ip。确保在同一网段 可以ping通 1.1 ip在同一网段,但是ping不通 1.解决:把双方防火墙关闭 2.解决:当前网口,先禁用再启用 以上两台电脑就可以ping通了 2.设置双方电脑 启动远程控制 此电脑-》…

给管理商场消防安全搭建消防安全培训小程序全过程

一、需求沟通 “我是管理商场消防安全的嘛,做这个的作用呢,1是商场的所有商户员工可以看平面或者视频随时自学, 2是我们定期培训必修课程、考试,这个需要留存他们的手签字的签到表确认我们讲给他们听了(免责很重要&am…

可视化图解算法:链表中倒数(最后)k个结点

1. 题目 描述 输入一个长度为 n 的链表,设链表中的元素的值为ai ,返回该链表中倒数第k个节点。 如果该链表长度小于k,请返回一个长度为 0 的链表。 数据范围:0≤n≤105,0 ≤ai≤109,0 ≤k≤109 要求&am…

Quartz知识点总结

简单说明 简单的定时任务使用Timer或者ScheduledExecutorService quartz支持复杂的定时执行功能。支持ram存储(内存存储)和持久化存储。quartz有分布式和集群能力 简单使用 获取任务调度器Schedule。任务调度器可以管理任务。创建任务实例。使用JobB…

C语言每日一练——day_12(最后一天)

引言 针对初学者,每日练习几个题,快速上手C语言。第十二天。(最后一天,完结散花啦) 采用在线OJ的形式 什么是在线OJ? 在线判题系统(英语:Online Judge,缩写OJ&#xff0…

【宇宙回响】从Canvas到MySQL:飞机大战的全栈交响曲【附演示视频与源码】

🌟 这是星际大战系列的第三篇送福利文章,感谢一路以来支持和关注这个项目的每一位朋友! 💡 文章力求严谨,但难免有疏漏之处,欢迎各位朋友指出,让我们一起在交流中进步。 🎁 项目代码…

数据结构知识点1

目录 一、时间复杂度和空间复杂度 1.1时间复杂度: 1.2空间复杂度: 二、装箱和拆箱 三、泛型 3.1泛型类的使用: 3.2泛型的上界: 3.3泛型方法: 一、时间复杂度和空间复杂度 1.1时间复杂度: 时间复杂…

华为ipd流程华为流程体系管理华为数字化转型流程数字化管理解决方案介绍81页精品PPT

华为流程体系最佳实践主要包括构建完善的流程框架,明确各层级流程要素与职责,梳理涵盖研发、采购、营销、服务、资产管理等多领域的流程,通过梳理业务场景和核心能力搭建差异化流程框架,采用自上而下与自下而上相结合的建模方法&a…

在大数据开发中ETL是指什么?

hello宝子们...我们是艾斯视觉擅长ui设计和前端数字孪生、大数据、三维建模、三维动画10年经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩! 在数字经济时代,数据已成为企业最核心的资产。然而,分散在业务系统、日志文件…

Collection系列集合的小结+集合并发修改异常问题

一、Collection系列集合的小结 二、补充知识:集合的并发修改异常问题 三、Collection的其他相关知识 1. 前置知识:可变参数 2. 集合的工具类:Collections 3. 综合案例:斗地主游戏 (1)创建Card类 public c…