数据分析 - 机器学习

1:线性回归

线性回归是一种统计技术用于对输出变量与一个或多个输入变量之间的关系进行建模
用外行人的话来说,将其视为通过某些数据点拟合一条线,如下所示
以便在未知数据上进行预测,假设变量之间存在线性关系

在这里插入图片描述

点和线之间存在微小的差异,被称为残差
他们是数据点和预测线之间的差异
取每个残差并对他们进行平方,得到平方误差,残差越大正方形的面积就越大
如果我们将给定线的所有这些正方形的面积相加,我们将得到平方误差的总和这就是我们的损失函数

我们将三分之一的数据并将其放入测试数据集中,剩余的三分之二将成为训练数据集,
然后使用训练数据集来拟合回归线,
然后,测试数据集将用于验证回归线,
这样做是为了确保回归在之前未见过的数据上表现良好。

决策树

决策树:为了达到目标根据一定条件进行选择的过程
常用语:房地产、银行,为了找到核心客户的学习方法
常被用于分类和回归
决策树由 根节点,子节点、叶子节点
决策树的分类标准:熵 (表示一个系统内在的混乱程度)熵代表是分支下样本种类的丰富性
样本种类越多越混乱,熵值越大,决策树的构造深度就是熵值的降低,熵值降低越快,代表决策树分类效率越高
决策树最大的优点是 天然的可解释性的,数据自动处理
缺点就是 不会存在完美的决策树,如果存在就是过拟合了
防止过拟合就是剪枝

剪枝有两种:预剪枝和后剪枝

预剪枝是在训练开始前规定条件,比如树达到某一深度就停止训练
后剪枝则是先找到树,再根据一定条件如限制叶子节点的个数,去掉一部分分支

随机森林

随机森林里面有很多决策树
随机森林是决策树的升级版
随机指的是树的生长过程
随机森林中的树也是各不相同
在构建决策树时,我们也不会使用数据的全部特征,而是随机选取部分特征进行训练,
每棵树使用的样本特征各不相同,训练的结果自然也各不相同
我们并不知道哪些是异常样本
也不知道哪些特征对分类结果影响更大,随机的过程降低了两者对分类结果的影响
随机森林的输出结果由投票决定,如果大部分决策认为测试数据是好苹果,那我们就认为它是好苹果,这很像人类的民主决策
推理过程和结论各不相同,但当每个人都拥有投票权时,往往能做出较优的决策,因为树与树之间的独立,它们可以同时训练,不需要花太多时间。
随机的过程让它不容易拟合,能处理特征较多的高维数据
也不需要做特征选择,合理训练后准确性很高,不知道使用什么分类方法时
先试一试随机森林准没错
在机器学习中随机森林属于集成学习,也就是将多个模型组合起来解决问题
这些模型会独立、预测、在投票出结果,准确性往往比单独的模型高很多

聚类

k-mean
k 表示样本数,把数据分为几类
将一群无标签数据,按特征属性,分为有标签属性

例如:有一个很多水果,但是很混乱,我不知道有哪几种水果,

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/260171.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenCV中的边缘检测技术及实现

介绍: 边缘检测是计算机视觉中非常重要的技术之一。它用于有效地识别图像中的边缘和轮廓,对于图像分析和目标检测任务至关重要。OpenCV提供了多种边缘检测技术的实现,本博客将介绍其中的两种常用方法:Canny边缘检测和Sobel边缘检测。 理论介…

MySQL5.7升级到MySQL8.0的最佳实践分享

一、前言 事出必有因,在这个月的某个项目中,我们面临了一项重要任务,即每年一次的等保测评整改。这次测评的重点是Mysql的一些高危漏洞,客户要求我们无论如何必须解决这些漏洞。尽管我们感到无奈,但为了满足客户的要求…

Guitar Pro8最新版本版本有哪些功能更新?

Guitar Pro 8的最新版本相较于之前的版本,有以下显著的功能更新: 音频轨道功能:这是Guitar Pro 8中一个非常实用的新功能。用户现在可以在GTP文件中添加伴奏音轨,无论是人声还是完整的录音,都可以与编写的谱子同时播放…

区块链革命:Web3如何改变我们的生活

随着技术的不断发展,区块链技术作为一种去中心化的分布式账本技术,正逐渐成为数字世界的核心。Web3作为区块链技术的重要组成部分,正在引领着数字化时代的变革,其影响已经开始渗透到我们生活的方方面面。本文将深入探讨区块链革命…

Maven属性scope

参考: maven 中 scope标签的作用(runtime、provided、test、compile 的作用) 【Maven】属性scope依赖作用范围详解 scope为provided

python工具方法 45 基于ffmpeg以面向对象多线程的方式实现实时推流

1、视频推流 参考基于ffmpeg模拟监控摄像头输出rtsp视频流并opencv播放 实现视频流的推流。 其基本操作就是,安装视频流推流服务器,ffmpeg,准备好要推流的视频。 命令如下所示:ffmpeg -re -stream_loop -1 -i 风景视频素材分享.flv -c copy -f rtsp rtsp://127.0.0.1:554/…

探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来

探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来 sora文生视频,探索AI视频生成新纪元 由于在AI生成视频的时长上成功突破到一分钟,再加上演示视频的高度逼真和高质量,Sora立刻引起了轰动。在S…

瑞_23种设计模式_代理模式

文章目录 1 代理模式(Proxy Pattern)1.1 介绍1.2 概述1.3 代理模式的结构 2 静态代理2.1 介绍2.2 案例——静态代理2.3 代码实现 3 JDK动态代理★★★3.1 介绍3.2 代码实现3.3 解析代理类3.3.1 思考3.3.2 使用 Arthas 解析代理类3.3.3 结论 3.4 动态代理…

19. 【Linux教程】nano 编辑器

前面小节介绍了如何使用 vim 编辑器,相比于 vim 编辑器,nano 编辑器就比较简单了。nano 是 UNIX 系统中的一个文本编辑器,大部分 Linux 发行版本默认都安装了 nano 文本编辑器。 和 vim 编辑器相比,nano 编辑器就没有那么强大&am…

【算法】约瑟夫环问题解析与实现

一、导言 约瑟夫环(Josephus Problem)是一个经典的数学问题,涉及一个编号为 1 到 n 的人围成一圈,从第一个人开始报数,报到某个数字 m 的人出列,然后再从下一个人开始报数,如此循环&#xff0c…

阿里云服务器操作系统有哪些?如何选择?

阿里云服务器镜像怎么选择?云服务器操作系统镜像分为Linux和Windows两大类,Linux可以选择Alibaba Cloud Linux,Windows可以选择Windows Server 2022数据中心版64位中文版,阿里云服务器网aliyunfuwuqi.com来详细说下阿里云服务器操…

神经网络——循环神经网络(RNN)

神经网络——循环神经网络(RNN) 文章目录 神经网络——循环神经网络(RNN)一、循环神经网络(RNN)二、循环神经网络结构1、一对一(One to One)2、一对多(One to Many&#…

代码随想录算法训练营第五十六天|300.最长递增子序列 , 674. 最长连续递增序列 ,718. 最长重复子数组

300.最长递增子序列 今天开始正式子序列系列,本题是比较简单的,感受感受一下子序列题目的思路。 视频讲解:动态规划之子序列问题,元素不连续!| LeetCode:300.最长递增子序列_哔哩哔哩_bilibili 代码随想录…

PyCharm 调试过程中控制台 (Console) 窗口内运行命令 - 实时获取中间状态

PyCharm 调试过程中控制台 [Console] 窗口内运行命令 - 实时获取中间状态 1. yongqiang.py2. Debugger -> Console3. Show Python PromptReferences 1. yongqiang.py #!/usr/bin/env python # -*- coding: utf-8 -*- # yongqiang chengfrom __future__ import absolute_imp…

【FastAPI】P3 请求与响应

目录 请求路径参数查询参数 响应JSON 响应文本响应返回 Pydantic 模型 在网络通讯中,请求(Request) 与 响应(Response) 扮演着至关重要的角色,它们构成了客户端与服务器间互动的根本理念。 请求&#xff0…

探索海洋世界,基于YOLOv5全系列【n/s/m/l/x】参数模型开发构建海洋场景下海洋生物检测识别分析系统

前面的博文中,开发实践过海底相关生物检测识别的项目,对于海洋场景下的海洋生物检测则很少有所涉及,这里本文的主要目的就是想要开发构建基于YOLOv5的海洋场景下的海洋生物检测识别系统。 前文相关的开发实践如下,感兴趣的话可以…

HarmonyOS开发篇—数据管理(分布式数据服务)

分布式数据服务概述 分布式数据服务(Distributed Data Service,DDS) 为应用程序提供不同设备间数据库数据分布式的能力。通过调用分布式数据接口,应用程序将数据保存到分布式数据库中。通过结合帐号、应用和数据库三元组&#xf…

matlab入门,在线编辑,无需安装matab

matlab相关教程做的很完善,除了B站看看教程,官方教程我觉得更加高效。跟着教程一步一步编辑,非常方便。 阅读 MATLAB 官方教程: MATLAB 官方教程提供了从基础到高级的教学内容,内容包括 MATLAB 的基本语法、数据处理…

飞天使-k8s知识点18-kubernetes实操3-pod的生命周期

文章目录 探针的生命周期流程图prestop 探针的生命周期 docker 创建:在创建阶段,你需要选择一个镜像来运行你的应用。这个镜像可以是公开的,如 Docker Hub 上的镜像,也可以是你自己创建的自定义镜像。创建自己的镜像通常需要编写一…

Academic Inquiry|投稿状态分享(ACS,Wiley,RSC,Elsevier,MDPI,Springer Nature出版社)

作为科研人员,我们经常会面临着向学术期刊投稿的问题。一般来说,期刊的投稿状态会在官方网站上进行公示,我们可以通过期刊的官方网站或者投稿系统查询到我们投稿的论文的状态,对于不同的期刊在投稿系统中会有不同的显示。 说明&am…