机器学习笔记(一)初识机器学习

1.定义

机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。

机器学习有下面几种定义:

(1)机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。

(2)机器学习是对能通过经验自动改进的计算机算法的研究。

(3)机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。

简要概念:让机器具备找一个函式的能力

2.机器学习的三种不同任务

1. Regression(回归分析)

定义:回归分析是研究自变量与因变量之间数量变化关系的一种分析方法。它主要是通过因变量Y与影响它的自变量X(可以是一个或多个)之间的回归模型,衡量自变量X对因变量Y的影响能力,进而可以用来预测因变量Y的发展趋势。

特点

  • 预测目标是一个连续值。
  • 损失函数(如均方误差MSE)用于衡量预测值与真实值之间的差异。
  • 常见的回归模型包括线性回归、多项式回归等。

应用

  • 预测房价、股票价格等连续数值。
  • 在语音识别中预测声音信号的连续特征。

理解:找一个函式的任务

2. Classification(分类)

定义:分类是找一个函数判断输入数据所属的类别。这可以是二类别问题(是/不是),也可以是多类别问题(在多个类别中判断输入数据具体属于哪一个类别)。

特点

  • 预测目标是离散值,即类别标签。
  • 损失函数(如交叉熵损失)用于衡量预测类别与实际类别之间的差异。
  • 常见的分类算法包括逻辑回归、决策树、支持向量机(SVM)、神经网络等。

应用

  • 邮件分类(垃圾邮件/非垃圾邮件)。
  • 人脸识别、语音识别等。

理解:从设定好的选项中选择一个输出的任务

3. Structured Learning(结构化学习)

定义:结构化学习是一种让机器学会从数据中提取结构化信息的强大技术。它能够将输入数据与输出数据之间的结构关系建模,并通过训练模型来学习这种关系,从而实现对新的输入数据进行预测。

特点

  • 输入和输出都是具有结构化的对象(如序列、树、图等)。
  • 需要考虑输入与输出之间的复杂结构关系。
  • 常见的结构化学习方法包括条件随机场(CRF)、结构化感知机(Structured Perceptron)等。

应用

  • 自然语言处理中的命名实体识别、句法分析。
  • 计算机视觉中的图像分割、目标跟踪。

理解:让机器可以创造

3.机器如何找函式(Linear Models)

1.找未知的函式

y是已知的,b,w是未知的

2.定义Loss

是一个关于b,w的函式,可记作L(b,w),用来记录预期与实际值的差值平均数

取绝对值计算e的方式叫做MAE,除了这种方式还有如下方式:

Loss值越大及正确率越低,反之越高

3.找未知函数的最佳值

如下这张图是对不同w值和相同b值下Loss的变化曲线

通过观察斜率调整w的值找到函数最佳值,此外w调整的大小不仅仅受斜率大小的影响还受learning rate的影响,learning rate(hyperparameters)是预设的参数。当Loss值最低时即为最佳值。

当然变值一般有多个,此时遇上的不同在于斜率已不能作为观测值,通过微分参数作为观测值。

提升准确值:

通过对有规律周期的多组数据的w和x进行平均值求取提高准确率。

4.突破Linear Models限制

蓝色曲线作为linear models不能模拟实际的情况需要通过多个函式分段模拟,如下:

当然实际情况可能是曲线,这需要通过更多的分段来进行逼近

这种折线可通过一种曲线函数更好的表示,这种曲线叫做Sigmoid Function即s型的曲线

调整不同参数可将曲线进行不同方式的调整,如下:

通过以上知识,红色曲线可通过如下进行表示:

提升模型的准确性

公式的矩阵表示:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/433264.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开源ids snort (windows版)

Snort-IPS-on-Windows-main资源-CSDN文库 GitHub - eldoktor1/Snort-IPS-on-Windows: A comprehensive guide to installing and configuring Snort IPS on Windows, ensuring robust network security 手动打造Snortbarnyard2BASE可视化告警平台 - FreeBuf网络安全行业门户 …

银河麒麟桌面操作系统如何添加WPS字体

银河麒麟桌面操作系统如何添加WPS字体 1、使用场景2、操作方法步骤一:下载字体文件步骤二:打开终端步骤三:进入字体文件所在目录步骤四:拷贝字体文件到WPS字体目录步骤五:更新字体缓存步骤六:重启WPS Offic…

【PAM】Linux登录认证限制

PAM(Pluggable Authentication Modules,可插拔认证模块)是一种灵活的认证框架,用于在 Linux 和其他类 Unix 系统上管理用户的身份验证。PAM 允许系统管理员通过配置不同的认证模块来定制应用程序和服务的认证方式,而不…

基于gorm.io/sharding分表中间件使用案例

项目背景 项目中需要用到mysql的分表场景,调研了一些常用的分库分表中间件,比如,mycat,小米的Gaea,这两个中间件太重了,学习成本较大,另外mycat不是go写的。我们需要一个轻量级的go版本的分表中…

Tomcat 乱码问题彻底解决

1. 终端乱码问题 找到 tomcat 安装目录下的 conf ---> logging.properties .修改ConsoleHandler.endcoding GBK (如果在idea中设置了UTF-8字符集,这里就不需要修改) 2. CMD命令窗口设置编码 参考:WIN10的cmd查看编码方式&am…

网络安全的方方面面

目录 一、网络安全概述二、数据加密三、消息完整性与数字签名四、身份认证五、密钥分发中心(KDC)与证书认证(CA)六、防火墙与入侵检测系统七、网络安全协议八、网络安全攻防 -- 黑客攻击简要流程九、网络安全常用术语 一、网络安全概述 网络安全的基本特征:相对性、…

稳了,搭建Docker国内源图文教程

大家好,之前分享了我的开源作品 Cloudflare Workers Proxy,它的作用是代理被屏蔽的地址,理论上支持代理任何被屏蔽的域名,使用方式也很简单,只需要设置环境变量 PROXY_HOSTNAME 为被屏蔽的域名,最后通过你的…

关于LlamaIndex 的几种索引方式介绍

每个索引的工作原理 本指南介绍每个索引如何与图表配合使用。 一些术语: Node:对应于 Document 中的一段文本。LlamaIndex 接收 Document 对象,并在内部将它们解析/分块为 Node 对象。Response Synthesis:我们的模块&#xff0…

案例研究丨国控星鲨利用DataEase释放数据潜能,重塑业务视野

国药控股星鲨制药(厦门)有限公司(以下简称为国控星鲨)始创于1952年,前身为厦门鱼肝油厂,距今已经有70余年历史,是国家商务部认定的“中华老字号”企业。2011年,国药控股与厦门轻工集…

ChatGPT Sidebar 浏览器插件配置指南

随着聊天机器人技术的不断进步,越来越多的人开始依赖这些强大的工具来提高工作效率、获取信息和解决问题。OpenAI 的 ChatGPT 是其中最受欢迎的聊天机器人之一。为了方便用户在浏览网页时随时与 ChatGPT 互动,开发者们设计了一款名为 ChatGPT Sidebar 的…

Maven的详细解读和配置

目录 一、Maven 1.1 引言 1.2 介绍 1.3 下载安装 1.3.1 解压 1.3.2 配置环境变量 1.3.3 测试 1.4 仓库[了解] 1.5 Maven配置 1.5.1 修改仓库位置 1.5.2 设置镜像 二、IDEA - MAVEN 2.1 idea关联maven 2.2 为新项目设置 2.2 创建java项目[重点] 2.3 java项目结构…

打靶记录18——narak

靶机: https://download.vulnhub.com/ha/narak.ova 推荐使用 VM Ware 打开靶机 难度:中 目标:取得 root 权限 2 Flag 攻击方法: 主机发现端口扫描信息收集密码字典定制爆破密码Webdav 漏洞PUT 方法上传BF 语言解码MOTD 注入CVE-2021-3…

施耐德EcoStruxure Machine SCADA Expert(EMSE)数据监测-趋势图(十九)

利用EMSE的趋势图控件可实时显示当前的过程监视数据值 1.添加趋势图 2.关连数据库 定义X轴显示时间 3.选择sql表单 4.xy轴设定 5.选择Y轴 6.运行–结合治上一届节的数据监控,可看到趋势图在实时调用数据库内容并显示出来。

如何进行“服务器内部错误”的诊断 | OceanBase诊断案例

本文作者:任仲禹,爱可生数据库高级工程师,擅长故障分析和性能优化。 的OMS迁移工具具备丰富的功能。但在实际运维场景中,我们可能会遇到各种问题,其中“服务器内部错误”便是一个较为棘手的问题,因为界面上…

五子棋双人对战项目(1)——WebSocket介绍

目录 一、项目介绍 如何实现实时同步对局? 二、WebSocket 1、什么是WebSocket? 2、WebSocket的报文格式 opcode payload len payload data 3、WebSocket握手过程 4、WebSocket代码的简单编写 三、WebSocket 和 HTTP的关系 1、相同点&#xf…

【机器学习案列】基于随机森林和xgboost的二手车价格回归预测

一、项目分析 1.1 项目任务 kaggle二手车价格回归预测项目,目的根据各种属性预测二手车的价格。 1.2 评估准则 评估的标准是均方根误差: 1.3 数据介绍 数据连接https://www.kaggle.com/competitions/playground-series-s4e9/data?selecttrain.csv 其…

Linux相关概念和重要知识点(8)(操作系统、进程的概念)

1.操作系统(OS) (1)基本结构的认识 任何计算机系统都包含一个基本的程序集合,用于实现计算机最基本最底层的操作,这个软件称为操作系统。操作系统大部分使用C语言编写,少量使用汇编语言。 从…

即插即用篇 | YOLOv8 引入单头视觉Transformer模块 | CVPR 2024

本改进已同步到YOLO-Magic框架! 最近,高效的视觉Transformer在资源受限的设备上以低延迟表现出了出色的性能。传统上,它们在宏观层面上采用44的Patch嵌入和四阶段结构,而在微观层面上使用多头配置的复杂注意力机制。本文旨在通过内存高效的方式解决各个设计层面的计算冗余问…

[ IDE ] SEGGER Embedded Studio for RISC-V

一、FILE 二、Edit 三、View 四、Search 五、Navigate 六、Project 七、Build 7.1 编译 先选择一个目标类型,再选择编译。 八、Debug​​​​​​​ 九、Target 9.1 烧录代码 十、Tools 10.1 自定义快捷键 点击菜单项,通过Tools –> Options –&g…

软考中级网络工程师选择题

部分参考 软考中级网络工程师全面学习笔记第2版(5万字)配套视频及课件_软考中级网络工程师资料-CSDN博客 1.计算机网络概述 OSI七层模型:物联网淑慧试用 TCP/IP:网网(网际层)传应 高频考点: 中央处理器CPU 固态硬盘…