详读西瓜书+南瓜书第3章——线性回归

在这里,我们来深入探讨线性模型的相关内容,这章涵盖了从基础线性回归到更复杂的分类任务模型。我们会逐步分析其数学公式和实际应用场景。

3.1 基本形式

线性模型的核心是通过属性的线性组合来预测结果。具体形式为:

其中,w 是权重向量,代表每个属性的重要性,x 是输入特征,b 是偏置项。

3.2 线性回归

线性回归的目的是找到最合适的权重 www 和偏置 bbb,使得模型预测的值 f(x) 尽量接近真实值 y。通过最小化均方误差来实现这一目标,均方误差(MSE)定义为:

通过对 w 和 b 求导并令偏导数为0,可以得到最优的解。对于单属性问题:多元线性回归的情况更加复杂,可以使用矩阵形式表示并通过最小二乘法求解,最终的闭式解为:

3.3 对数几率回归

对数几率回归(Logistic Regression)适用于二分类问题。通过一个可微函数(Sigmoid函数)将线性回归的预测值转换为概率:

这个函数将输入值映射到 000 到 111 之间,输出代表事件发生的概率。

对数几率回归的核心公式为:

左边的对数项称为“几率”,反映了样本作为正例的相对可能性。

3.4 线性判别分析 (LDA)

线性判别分析的目标是通过将样本投影到一条直线上进行分类,最大化类间的差异并最小化类内的差异。投影后的线性函数可以表示为:

其中 w 是投影方向,通过最大化以下目标函数求得:

其中 Sb​ 是类间散度矩阵,Sw是类内散度矩阵。通过求解可以得到最优的投影向量 w。

3.5 多分类学习

多分类任务可以通过将其分解为多个二分类任务来解决。常见的策略包括:

  1. OvO(One-vs-One):将每两个类别进行配对,训练 N(N−1)/2 个分类器。
  2. OvR(One-vs-Rest):每次将一个类别作为正例,其他类别作为反例,训练 N 个分类器。
  3. MvM(Many-vs-Many):将多个类别组合为正类和反类,通过纠错输出码设计来优化分类器。

3.6 类别不平衡问题

在类别不平衡的场景下,直接训练模型可能导致分类性能偏向多数类。常用的方法包括:

  1. 欠采样:减少多数类样本。
  2. 过采样:增加少数类样本。
  3. 数据重采样:通过随机化样本来平衡类别。

以上内容涵盖了线性模型的关键部分,包括线性回归、对数几率回归、线性判别分析和多分类学习。它们在实际应用中被广泛用于分类与回归任务,同时可以通过正则化、采样等技术进一步优化模型的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/428240.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JVM基础篇学习笔记

【注:本文章为自学笔记,仅供学习使用。】 一、JVM简介 JVM是Java虚拟机的缩写,本质上是运行在计算机上面的程序,作用是运行Java字节码文件。 1.1 JVM的功能 Java如果不做优化,则性能不如C/C,因为后者会…

上手一个RGBD深度相机:从原理到实践--ROS noetic+Astra S(中):RGB相机的标定和使用

前言 本教程涉及基础相机的原理,使用,标定,和读取。(注:本教程默认大家有ROS1基础,故不对程序进行详细解释) 上一期:[csdn博客]上手一个RGBD深度相机:从原理到实践–ROS noeticAstra S&#xf…

vue无法通过页面路径访问提示404,通过nginx配置处理

部署vue项目时,可以通过IP的方式访问主页,当进入特定页面在刷新时,因为浏览器通过URL地址进行请求,就提示404错误。 每次都需要重新从主页进入,这里是因为nginx配置的问题,在nginx里增加一行重定向的设置 …

mac命令行分卷压缩与合并

对当前目录内的文件压缩的同时分卷 //语法:zip -r -s 1m 压缩文件名.zip 当前路径 zip -r -s 1m split.zip . //解压 zip -s 0 split.zip --out unsplit.zip unzip unsplit.zip 将一个zip文件进行分卷 一个900k的压缩包名为hello.zip,将其分割为每500K一个zip zip - hello.…

usemeno和usecallback区别及使用场景

1. useMemo 用途: useMemo 用于缓存计算结果。它接受一个函数和依赖项数组,只有当依赖项发生变化时,才会重新计算该函数的返回值。否则,它会返回缓存的值。 返回值: useMemo 返回的是函数执行后的结果。 使用场景: 当一个计算量大的函数在每…

dev c++输出中文乱码解决 printf乱码解决

把编码换成utf8就行 打开eiditor options

SpringBoot实现OAuth客户端

背景 5 月份的时候,我实践并整理了一篇博客:SpringBoot搭建OAuth2,该博客完成之后,本以为能对OAuth2的认证机制更加清晰,但我却觉得自己更“迷惘”了。 抛开我在项目中积累的浅薄经验不谈,单从在网…

生信初学者教程(八):数据收集

文章目录 数据分布表达谱数据最终数据分布自动下载GSE14520下载GSE149614下载其它数据在确定研究疾病为肝细胞癌**(Liver Hepatocellular Carcinoma: HCC)**后,系统地进行了文献回顾,专注于搜索与HCC相关的荟萃分析文章,以获取该领域的研究动态和已有成果。为了支持的研究…

【专题】2024新能源企业“出海”系列之驶向中东、东南亚报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p37698 在“双碳”目标引领下,中国新能源产业近年迅猛发展,新能源企业凭借技术革新、政策支持与市场驱动实现快速增长,在产业链完备、技术领先、生产效能及成本控制等方面优势显著。面对国内外环境…

2024年“华为杯”研赛第二十一届中国研究生数学建模竞赛解题思路|完整代码论文集合

我是Tina表姐,毕业于中国人民大学,对数学建模的热爱让我在这一领域深耕多年。我的建模思路已经帮助了百余位学习者和参赛者在数学建模的道路上取得了显著的进步和成就。现在,我将这份宝贵的经验和知识凝练成一份全面的解题思路与代码论文集合…

PowerBI-l5-CALENDAR创建日期表

CALENDAR创建日期表 方法1 Table CALENDARAUTO() 方法2 自定义日期 Table CALENDAR(date(2021,6.20),date(2021,6.24))

工作中遇到的问题总结(1)

文章目录 第一题问题描述解决思路 第二题问题描述解决思路核心大表如何优化数据迁移过程是怎么样的如何将流量从旧系统迁移到新系统上 第三题问题描述解决思路 第四题问题描述解决思路方案一:双写机制方案二:基于时间戳的分流机制方案三:灰度…

再次理解UDP协议

一、再谈端口号 在 TCP / IP 协议中,用 "源 IP", "源端口号", "目的 IP", "目的端口号", "协议号" 这样一个五元组来标识一个通信(可以通过 netstat -n 查看) 我们需要端口号到进程的唯一性,所以一个…

李沐 过拟合和欠拟合【动手学深度学习v2】

模型容量 模型容量的影响 估计模型容量 难以在不同的种类算法之间比较,例如树模型和神经网络 给定一个模型种类,将有两个主要因素: 参数的个数参数值的选择范围 VC维 线性分类器的VC维 VC维的用处 数据复杂度 多个重要因素: 样…

Linux基础命令——账户简单管理

一.添加用户 命令:useradd username eg:useradd yy 添加用户名为yy的用户 注意: inux中如果新建用户的时候没有用-d参数指定家目录,那么用户的家目录是什么? 指定的默认/home下面,以username命名 二.修改账户口令/密码 命令&…

solidwork找不到曲面

如果找不到曲面 则右键找到选项卡,选择曲面

使用HTML和CSS制作网页的全面指南

目录 引言 一、理解HTML 1. 什么是HTML? 2. HTML文档的基本结构 3. 常用的HTML标签 4. 示例:创建一个简单的HTML页面 二、理解CSS 1. 什么是CSS? 2. CSS的使用方式 3. CSS选择器和属性 4. 常用的CSS属性 三、创建网页的步骤 1. 规…

YOLOv8改进系列,YOLOv8替换主干网络为PP-HGNetV2(百度飞桨视觉团队自研,助力涨点)

摘要 PP-HGNetV2(High Performance GPU Network V2) 是百度飞桨视觉团队自研的 PP-HGNet 的下一代版本,其在 PP-HGNet 的基础上,做了进一步优化和改进,最终在 NVIDIA GPU 设备上,将 “Accuracy-Latency Balance” 做到了极致,精度大幅超过了其他同样推理速度的模型。其在…

【有啥问啥】弱监督学习新突破:格灵深瞳多标签聚类辨别(Multi-Label Clustering and Discrimination, MLCD)方法

弱监督学习新突破:格灵深瞳多标签聚类辨别(Multi-Label Clustering and Discrimination, MLCD)方法 引言 在视觉大模型领域,如何有效利用海量无标签图像数据是一个亟待解决的问题。传统的深度学习模型依赖大量人工标注数据&…

LeetCode118:杨辉三角

题目链接&#xff1a;118. 杨辉三角 - 力扣&#xff08;LeetCode&#xff09; 代码如下 class Solution {public:vector<vector<int>> generate(int numRows) {vector<vector<int>> dp(numRows);vector<int> temp(numRows);for (int i 0; i &…