机器学习总结

机器学习按照模型类型分为监督学习模型,无监督学习模型和概率模型三大类:

下图是机器学习笔记思维导图,:

一.什么是机器学习

从本质上讲,可以认为机器学习就是在数据中寻找一种合适的函数来描述输入与输出之间的关系。我们通过训练模型,使它能够找到一个函数 f(x),使得对于给定的输入 x,函数 f的输出 y尽可能接近真实值或期望的结果。  机器学习=寻找一种函数

如何寻找这个函数

1.第一个函数集合 2.判断函数的好坏 3.选择最好的函数

学习路线

1.数学基础,了解矩阵和向量的基本操作,特征值和特征向量的计算后边也会学到

2.机器学习基础

3.深度学习

二.机器学习算法的类型

1.有监督学习

利用有监督学习解决的问题大致可以分为两类:

分类问题:预测某一样本所属的类别(离散的)。比如给定一个人的数据结构:包括:身高年龄体重等,然后判断性别或者是否健康。

回归问题:预测某一样本的所对应的实数输出(连续的)。

线性回归,逻辑回归,分类回归树,朴素贝叶斯,k最近邻算法均是有监督学习的例子。

2.无监督学习

  1. 聚类(Clustering)

    • 定义:将数据点划分成若干组(即簇),使得同一簇内的数据点在特征空间中的距离尽量小,而不同簇的数据点尽量远。
    • 常用算法
      • K均值(K-Means):将数据分成 KKK 个簇,通过迭代不断优化簇中心。
      • 层次聚类(Hierarchical Clustering):通过递归地将数据进行层次划分,构建树状结构。
      • DBSCAN:基于密度的聚类方法,适合处理不规则形状的簇。
    • 应用:图像分割、客户分群、推荐系统等。
  2. 降维(Dimensionality Reduction)

    • 定义:将高维数据投影到低维空间,同时保留尽可能多的原始信息。降维不仅可以减少计算复杂度,还能帮助我们理解数据的结构。
    • 常用算法
      • 主成分分析(PCA):将数据投影到方向方差最大的方向上,用于特征提取和数据压缩。
      • 线性判别分析(LDA):以最大化类间方差与类内方差的比值为目标,适用于有监督降维。
      • t-SNE:一种非线性降维方法,常用于可视化高维数据。
    • 应用:特征选择、数据可视化、噪声过滤。
  3. 关联规则学习(Association Rule Learning)

    • 定义:挖掘数据集中不同项之间的关联关系,通常用于发现频繁项集和产生关联规则。
    • 常用算法
      • Apriori:基于频繁项集的生成,用于发现交易中的关联关系。
      • FP-Growth:比Apriori更高效,用于发现频繁项集。
    • 应用:市场购物篮分析、推荐系统。
  4. 异常检测(Anomaly Detection)

    • 定义:检测数据集中异常或罕见的模式,这些异常数据可能代表欺诈、故障等特殊事件。
    • 常用算法
      • 孤立森林(Isolation Forest):通过随机划分特征空间来分离异常点。
      • 高斯混合模型(GMM):用概率模型来识别数据集中可能的异常点。
    • 应用:信用卡欺诈检测、网络入侵检测。

三.常见机器学习概念介绍:

机器学习算法根据其学习方式和任务类型可分为多种类别,包括监督学习、无监督学习、半监督学习和强化学习。以下是一些常见机器学习算法的简介:

 1. 线性回归(Linear Regression)
   - 类型:监督学习
   - **任务**:回归
   - **简介**:用于预测连续值的算法,假设自变量与因变量之间存在线性关系。通过最小化预测值与实际值之间的误差来找到最佳拟合直线。

 2. **逻辑回归(Logistic Regression)**
   - **类型**:监督学习
   - **任务**:分类
   - **简介**:用于二分类问题的模型,输出结果为类别的概率。通过S型(Sigmoid)函数将线性模型的输出映射到0到1之间,用于判断样本属于哪一类。

3. **K-近邻算法(K-Nearest Neighbors, KNN)**
   - **类型**:监督学习
   - **任务**:分类和回归
   - **简介**:根据样本与训练数据中最近的K个邻居的标签来决定分类结果或回归值。适合小规模数据,计算量随样本数增长。

 4. **支持向量机(Support Vector Machine, SVM)**
   - **类型**:监督学习
   - **任务**:分类和回归
   - **简介**:通过寻找能够最大化分类边界的超平面来分类样本,适合复杂、高维度数据的分类。可通过核函数(如RBF核)扩展到非线性分类问题。

 5. **朴素贝叶斯分类器(Naive Bayes Classifier)**
   - **类型**:监督学习
   - **任务**:分类
   - **简介**:基于贝叶斯定理和条件独立假设的分类算法,适合文本分类等场景。简单高效,常用于处理大规模数据。

6. **决策树(Decision Tree)**
   - **类型**:监督学习
   - **任务**:分类和回归
   - **简介**:基于树结构的模型,选择特征及阈值将数据划分为不同子集,直至满足终止条件。具有较好的可解释性,但易于过拟合。

 7. **随机森林(Random Forest)**
   - **类型**:监督学习
   - **任务**:分类和回归
   - **简介**:集成多棵决策树的模型,通过集成多个树的预测结果来提高准确性和鲁棒性。随机森林具有良好的泛化能力,能有效防止过拟合。

8. **梯度提升(Gradient Boosting)**
   - **类型**:监督学习
   - **任务**:分类和回归
   - **简介**:通过逐步构建多个弱分类器(通常是决策树),每一步拟合前一步的残差,以减少模型误差。常见的实现有XGBoost、LightGBM、CatBoost等。

 9. **K-均值聚类(K-Means Clustering)**
   - **类型**:无监督学习
   - **任务**:聚类
   - **简介**:一种聚类算法,通过不断调整K个簇的中心,最小化簇内的误差平方和,使得每个簇中的样本更相似。适合于寻找数据的自然分组。

10. **主成分分析(Principal Component Analysis, PCA)**
   - **类型**:无监督学习
   - **任务**:降维
   - **简介**:通过找出数据的主要成分,将数据从高维映射到低维空间,保留尽可能多的方差信息。广泛用于数据预处理和可视化。

11. **期望最大化算法(Expectation-Maximization, EM)**
   - **类型**:无监督学习
   - **任务**:聚类
   - **简介**:一种用于含有隐藏变量的概率模型的聚类算法。通过迭代地执行期望步骤(E)和最大化步骤(M),优化模型参数。

 12. **人工神经网络(Artificial Neural Network, ANN)**
   - **类型**:监督学习
   - **任务**:分类和回归
   - **简介**:模仿人脑神经网络的算法,通过多层神经元和反向传播学习复杂的非线性关系,广泛用于图像识别、自然语言处理等复杂任务。

13. **卷积神经网络(Convolutional Neural Network, CNN)**
   - **类型**:监督学习
   - **任务**:分类、回归和检测
   - **简介**:一种用于图像处理的神经网络,能够通过卷积和池化层提取图像的空间特征。广泛应用于计算机视觉任务,如图像分类和物体检测。

14. **循环神经网络(Recurrent Neural Network, RNN)**
   - **类型**:监督学习
   - **任务**:序列预测
   - **简介**:用于处理序列数据的神经网络,具有记忆功能。常用于时间序列、文本处理任务。LSTM和GRU是其改进版本,可缓解RNN的长时依赖问题。

 15. **强化学习(Reinforcement Learning, RL)**
   - **类型**:强化学习
   - **任务**:决策
   - **简介**:一种通过与环境交互来学习策略的算法。通过奖励和惩罚来调整动作选择,以最大化长期收益,广泛用于游戏AI和机器人控制。

在机器学习中,偏差(Bias)是模型偏离真实数据模式的程度。它反映了模型在训练数据上没有很好地拟合目标函数的程度。偏差较高的模型通常是欠拟合的,这意味着它无法捕捉到数据的规律,通常表现为在训练数据和测试数据上都产生较高的误差。

四.十大机器学习算法介绍

有监督学习

1.线性回归算法
2.逻辑回归算法
3.分类回归树(决策树)
4.朴素贝叶斯
5.KNN(K近邻算法)

无监督学习

6.关联规则算法
7.K-means算法
8.PCA主成分分析
9.使用随机森林Bagging
10.用Adaboost 实现Boosting

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/471147.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WEB攻防-通用漏洞SQL注入sqlmapOracleMongodbDB2等

SQL注入课程体系: 1、数据库注入-access mysql mssql oracle mongodb postgresql 2、数据类型注入-数字型 字符型 搜索型 加密型(base64 json等) 3、提交方式注入-get post cookie http头等 4、查询方式注入-查询 增加 删除 更新 堆叠等 …

三、损失函数

损失函数 前言一、分类问题的损失函数1.1 二分类损失函数1.1.1 数学定义1.1.2 函数解释:1.1.3 性质1.1.4 计算演示1.1.5 代码演示 1.2 多分类损失函数1.1.1 数学定义1.1.2 性质与特点1.1.3 计算演示1.1.4 代码演示 二、回归问题的损失函数2.1 MAE损失2.2 MSE损失2.3…

PNG图片批量压缩exe工具+功能纯净+不改变原始尺寸

小编最近有一篇png图片要批量压缩,大小都在5MB之上,在网上找了半天要么就是有广告,要么就是有毒,要么就是功能复杂,整的我心烦意乱。 于是我自己用python写了一个纯净工具,只能压缩png图片,没任…

测试工程师简历「精选篇」

【#测试工程师简历#】一份专业且引人注目的测试工程师简历,无疑是你敲开理想职位大门的金钥匙。那么,如何撰写一份既体现技术水平又彰显个人特色的简历呢?以下是幻主简历网整理的测试工程师简历「程序员篇」,欢迎大家阅读收藏&…

git下载慢下载不了?Git国内国外下载地址镜像,git安装视频教程

git安装下载的视频教程在这 3分钟完成git下载和安装,git国内外下载地址镜像,Windows为例_哔哩哔哩_bilibili 一、Git安装包国内和国外下载地址镜像 1.1国外官方下载地址 打开Git的官方网站:Git官网下载页面。在页面上选择对应的系统&…

专题十八_动态规划_斐波那契数列模型_路径问题_算法专题详细总结

目录 动态规划 动态规范五步走: 1. 第 N 个泰波那契数(easy) 解析: 1.状态表达式: 2.状态转移方程: 3.初始化: 4.填表顺序: 5.返回值 编写代码: 总结&#xff…

阿里云centos7.9服务器磁盘挂载,切换服务路径

项目背景 1、项目使用的服务器为阿里云centos7.9,默认的磁盘为vda,文件系统挂载在这个磁盘上,项目上使用的文件夹为/home/hnst/uploadPath 2、vda使用率已达到91% 3、现购置一块新的磁盘为vdb,大小为2T 目的 切换服务所使用的…

STM32问题集

这里写目录标题 一、烧录1、 Can not connect to target!【ST-LINK烧录】 一、烧录 1、 Can not connect to target!【ST-LINK烧录】 烧录突然 If the target is in low power mode, please enable “Debug in Low Power mode” option from Target->settings menu 然后就&…

Scala学习记录,case class,迭代器

case class case class创建的对象的属性是不可改的 创建对象,可以不用写new 自动重写:toString, equals, hashCode, copy 自动重写方法:toString,equals,hashCode,copy 小习一下 1.case class 的定义语法是什么 基本形式:case …

成都睿明智科技有限公司解锁抖音电商新玩法

在这个短视频风起云涌的时代,抖音电商以其独特的魅力迅速崛起,成为众多商家争夺的流量高地。而在这片充满机遇与挑战的蓝海中,成都睿明智科技有限公司犹如一颗璀璨的新星,以其专业的抖音电商服务,助力无数品牌实现从零…

阅读2020-2023年《国外军用无人机装备技术发展综述》笔记_技术趋势

目录 文献基本信息 序言 1 发展概况 2 重点技术发展 2.1 人工智能技术 2.1.1 应用深化 2.1.2 作战效能提升 2.2 航空技术 2.2.1螺旋桨设计创新 2.2.2 发射回收技术进步 2.3 其他相关技术 2.3.1 远程控制技术探 2.3.2 云地控制平台应用 3 装备系统进展 3.1 无人作…

LeetCode 86.分隔链表

题目: 给你一个链表的头节点 head 和一个特定值 x ,请你对链表进行分隔,使得所有 小于 x 的节点都出现在 大于或等于 x 的节点之前。 你应当 保留 两个分区中每个节点的初始相对位置。 思路: 代码: /*** Definiti…

SystemVerilog学习笔记(六):控制流

条件语句 条件语句用于检查块中的语句是否被执行。条件语句创建语句块。如果给出的表达式是 true,执行块中的语句集,如果表达式为 false,则 else 块语句将最后执行。 序号条件语句1.if2.if-else3.if-else ladder4.unique if5.unique0 if6.p…

SQL,力扣题目1127, 用户购买平台

一、力扣链接 LeetCode_1127 二、题目描述 支出表: Spending ---------------------- | Column Name | Type | ---------------------- | user_id | int | | spend_date | date | | platform | enum | | amount | int | ------------------…

【计算机网络】【传输层】【习题】

计算机网络-传输层-习题 文章目录 10. 图 5-29 给出了 TCP 连接建立的三次握手与连接释放的四次握手过程。根据 TCP 协议的工作原理,请填写图 5-29 中 ①~⑧ 位置的序号值。答案技巧 注:本文基于《计算机网络》(第5版)吴功宜、吴英…

群控系统服务端开发模式-应用开发-前端个人信息功能

个人信息功能我把他分为了3部分:第一部分是展示登录者信息;第二步就是登录者登录退出信息;第三部分就是修改个人资料。 一、展示登录者信息 1、优先添加固定路由 在根目录下src文件夹下route文件夹下index.js文件中,添加如下代码 …

Qwen2-VL:发票数据提取、视频聊天和使用 PDF 的多模态 RAG 的实践指南

概述 随着人工智能技术的迅猛发展,多模态模型在各类应用场景中展现出强大的潜力和广泛的适用性。Qwen2-VL 作为最新一代的多模态大模型,融合了视觉与语言处理能力,旨在提升复杂任务的执行效率和准确性。本指南聚焦于 Qwen2-VL 在三个关键领域…

Java面向对象高级2

1.代码块 2.内部类 成员内部类 public class Demo{public static void main(String[] args) {outer.inner innew outer().new inner();in.run();}}class outer{private String str"outer";public class inner{public void run(){String sstr;System.out.println(s);…

Elasticsearch 8.16:适用于生产的混合对话搜索和创新的向量数据量化,其性能优于乘积量化 (PQ)

作者:来自 Elastic Ranjana Devaji, Dana Juratoni Elasticsearch 8.16 引入了 BBQ(Better Binary Quantization - 更好的二进制量化)—— 一种压缩向量化数据的创新方法,其性能优于传统方法,例如乘积量化 (Product Qu…

androidstudio下载gradle慢

1,现象: 2,原因,国内到国外网址慢 3,解决方法:更改gradle-wrapper.properties #Wed Sep 26 20:01:52 CST 2018 distributionBaseGRADLE_USER_HOME distributionPathwrapper/dists zipStoreBaseGRADLE_USER…