支持向量机-笔记

支持向量机(Support Vector Machine, SVM) 是一种强大的监督学习算法,广泛应用于分类和回归任务,特别是在分类问题中表现优异。SVM 的核心思想是通过寻找一个最优超平面,将不同类别的数据点进行分割,并最大化两类数据之间的间隔(即“边距”)。SVM 的本质是一个二分类算法,但它也可以扩展到多分类和回归问题。

大白话:例如在二维中进行二分类,找一条直线把两类数据分开,且这条直线距离正负两类最近的点距离最远,这个直线(二维)称为超平面,最近的点称为支持向量,超平面是由支持向量支撑起来的,软间隔则是允许忽略一些噪声数据点,由参数C决定忽略的力度。

1. 支持向量机的基本概念

超平面(Hyperplane)

超平面是指将数据空间划分为不同区域的一个线性决策边界。在二维空间中,超平面是一个线,而在三维空间中,超平面是一个平面。在n维空间中,超平面可以被认为是n-1维的平面。

支持向量(Support Vectors)

支持向量是指位于分类间隔边界上的数据点,这些点对超平面的最终位置有决定性的影响。SVM 寻找的最优超平面是由这些支持向量决定的。

边距(Margin)

边距是指两个类别之间的最小距离,SVM 的目标是最大化边距,即让两类数据之间的空隙尽可能大,以减少模型的误差和提高泛化能力。

  • 硬间隔(Hard Margin)SVM:不允许分类错误,要求所有数据点都被完全正确分类。这种方法适合线性可分的数据。
  • 软间隔(Soft Margin)SVM:允许一些数据点在决策边界的错误一侧,以便处理有噪声或线性不可分的数据。

2. 支持向量机的数学原理

线性可分 SVM

假设我们有一个线性可分的二分类数据集,SVM 的目标是找到一个最优的超平面,使得超平面两侧的分类边距最大化。

  1. 超平面的方程

 其中,w 是法向量,决定超平面的方向,b是偏置。

     2.决策函数: 

决策函数用于预测数据点属于哪个类别,输出结果为1或-1。 

     3.优化目标: 为了最大化分类边距,SVM 需要最小化 w 的范数,同时满足数据点的分类条件: 

其中 yi为第 i个样本的标签(1或-1)。 

最终优化问题可以表示为: 

约束条件为: 

软间隔 SVM

对于线性不可分的数据,SVM 引入了松弛变量(Slack Variables) ξi,允许一些数据点违背分类规则。优化问题变为:

约束条件为: 

其中,C 是一个超参数,控制模型的柔韧性,允许一些分类错误以便更好地处理线性不可分数据。 

3. 核方法(Kernel Trick)

当数据在原始特征空间中线性不可分时,SVM 使用核方法将数据映射到高维空间,使得在高维空间中线性可分。常见的核函数有:

大白话:当前维度不可分,则将数据映射到高维。

  1. 线性核(Linear Kernel)

适用于线性可分的数据。 

     2.多项式核(Polynomial Kernel)

其中 c 是常数,d 是多项式的次数,适用于具有多项式关系的数据。

     3.径向基函数核(Radial Basis Function, RBF Kernel)

RBF 核非常适用于处理非线性数据,且在实际应用中非常常见。

     4.Sigmoid核(Sigmoid Kernel)

这个核函数与神经网络中的激活函数相关联。

 4. 支持向量机的优缺点

优点

  1. 高效的处理高维数据:SVM 在处理高维空间的数据时表现出色,尤其是在维度高于样本数的情况下。
  2. 内存高效:SVM 只利用支持向量来构建决策边界,因此它并不需要整个数据集。
  3. 灵活性强:通过核方法,SVM 能够处理线性不可分的数据。
  4. 鲁棒性强:SVM 能够很好地处理噪声数据,并且可以通过调整软间隔参数 C 来控制过拟合。

缺点

  1. 训练时间较长:特别是在样本数很大时,SVM 的训练时间会显著增加,因为计算复杂度较高。
  2. 难以处理多分类问题:SVM 本质上是二分类算法,尽管可以通过“一对一”或“一对多”的方法扩展到多分类任务,但实现较为复杂。
  3. 参数调优复杂:SVM 需要调节多个参数(如核函数、软间隔参数 C、核的超参数等),找到最优参数组合需要大量调试。
  4. 难以处理大规模数据:SVM 对大规模数据的处理效率较低。

5. SVM的调参要点

SVM 的性能在很大程度上取决于参数的选择,以下是常用的超参数及其调优策略:

  1. 核函数选择:核函数选择是最重要的参数之一,不同的核函数适用于不同类型的数据。线性数据可以选择线性核,非线性数据则使用 RBF 核或多项式核。

  2. 软间隔参数 C:该参数控制模型对误分类的容忍度。C 值越大,模型越倾向于对训练数据进行严格分类,可能导致过拟合;C 值越小,模型对误分类的容忍度越高,可能导致欠拟合。

  3. 核参数 γ:对于 RBF 核函数,γ控制单个样本的影响范围。较小的 γ值会使模型较为平滑,较大的 γ值会让模型更加拟合训练数据。

  4. 交叉验证:使用网格搜索(Grid Search)和交叉验证(Cross-Validation)可以帮助找到最优的 C 和 γ参数组合。

 6. SVM 的 Python 实现示例

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score# 加载数据集
iris = datasets.load_iris()
X = iris.data
y = iris.target# 分割训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 定义支持向量机模型(使用RBF核)
svm_model = SVC(kernel='rbf', C=1, gamma=0.1)# 训练模型
svm_model.fit(X_train, y_train)# 进行预测
y_pred = svm_model.predict(X_test)# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

 7. 常见面试问题

  1. 什么是支持向量机?

    • 回答要点:SVM 是一种监督学习算法,寻找最优超平面来最大化分类间隔。
  2. 什么是支持向量?

    • 回答要点:支持向量是位于决策边界附近的数据点,它们对超平面的位置有决定性作用。
  3. 解释SVM中的软间隔和硬间隔的区别。

    • 回答要点:硬间隔不允许分类错误,适用于线性可分数据;软间隔允许部分误分类,适用于线性不可分数据。
  4. 什么是核方法?为什么需要核方法?

    • 回答要点:核方法用于将数据映射到高维空间,使得在高维空间中线性可分,从而找到最优超平面。
  5. 如何选择SVM的参数 C 和 γ?

    • 回答要点:通过交叉验证和网格搜索找到最优的参数,C 控制误分类的惩罚,γ 控制核函数的影响范围。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/445767.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构 ——— 顺序表oj题:有效的括号

目录 题目要求 代码实现 题目要求 给定一个只包括 (,),{,},[,] 的字符串 s ,判断字符串是否有效 有效字符串需满足: 左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。每个…

[单master节点k8s部署]37.微服务(一)springCloud 微服务

微服务架构的一个重要特点是,它与开发中使用的具体编程语言或技术栈无关。每个微服务都可以使用最适合其功能需求的语言或技术来实现。例如,一个微服务可以用Java编写,另一个微服务可以用Python、Go、Node.js等编写。微服务架构允许这种灵活性…

Gin项目的初始化步骤和常见错误记录

相信很多人对Go的环境安装和Gin项目的初始化都已经手拿把攥很是熟练了,本节介绍一个自己新建Go项目时非常好用的设置以及记录一下Gin项目的初始化过程和常能遇到的错误。 一个容易忽略的Go ENV 在安装了Go的电脑中,我们可以在命令行执行 go env 命令&…

04 什么是线性表

什么是线性表 一、为什么需要线性表 例如: ​ 在程序中保存指定班级的所有的学生信息(暂时只需要处理姓名、年龄),该班级最多可容纳30人,且可进行数量上的增减。 业务功能: ​ 1)这个项目中…

【Go】GO语言知识总结浅析

Go语言是一种现代化的编程语言,由Google于2007年设计并于2009年发布。它旨在使编程变得简单、高效,并且可以在多核处理器上轻松构建高性能应用。Go语言的编程思想、发展历史、版本特点、运行原理、数据类型、应用场景,以及在web开发、网络编程…

云轴科技ZStack入选信通院《高质量数字化转型产品及服务全景图》AI大模型图谱

近日,由中国互联网协会中小企业发展工作委员会主办的“2024大模型数字生态发展大会暨铸基计划年中会议”在北京成功召开。会上发布了中国信通院在大模型数字化等领域的多项工作成果,其中重点发布了《高质量数字化转型产品及服务全景图(2024上…

ESP32利用WebServer进行设备配置

目标需求 利用esp32的WebServer功能&#xff0c;展示一个网页&#xff0c;对里面的参数进行配置&#xff0c;并以json文本格式保存到flash里面。 1、定义HTML const char index_html[] PROGMEM R"rawliteral( <!DOCTYPE html> <html lang"en"> …

使用SpringMVC搭建WEB项目时报错404的问题排查解决以及web.xml配置文件init-param行标红问题

一、使用SpringMVC搭建WEB项目时报错404的问题排查解决 很早前&#xff08;4年前&#xff09;就把这个搭建过&#xff0c;但今天运行的时候就是报404错误&#xff0c;见文章&#xff1a; JAVA开发中SpringMVC框架的使用及常见的404问题原因以及SpringMVC框架基于注解的开发实例…

Apache SeaTunnel 9月份社区发展记录

各位热爱 SeaTunnel 的小伙伴们&#xff0c;9月份社区月报来啦&#xff01;这里将定期更新SeaTunnel社区每个月的重大进展&#xff0c;欢迎关注&#xff01; 月度Merge Stars 感谢以下小伙伴上个月为 Apache SeaTunnel 做的精彩贡献&#xff08;排名不分先后&#xff09;&…

【网络安全】CVE-2024-46990: Directus环回IP过滤器绕过实现SSRF

未经许可,不得转载。 文章目录 背景漏洞详情受影响版本解决方案背景 Directus 是一款开源 CMS,提供强大的内容管理 API,使开发人员能够轻松创建自定义应用程序,凭借其灵活的数据模型和用户友好的界面备受欢迎。然而,Directus 存在一个漏洞,允许攻击者绕过默认的环回 IP …

问卷调查毕设计算机毕业设计投票系统SpringBootSSM框架

目录 一、引言‌ ‌二、需求分析‌ 用户角色‌&#xff1a; ‌功能需求‌&#xff1a; ‌非功能需求‌&#xff1a; ‌三、系统设计‌ ‌技术选型‌&#xff1a; ‌数据库设计‌&#xff1a; ‌界面设计‌&#xff1a; ‌四、实现步骤‌ ‌后端实现‌&#xff1a; …

UM981最小系统推荐设计

L1&#xff1a;推荐使用 0603 封装的 68nH 射频电感 C1&#xff1a;推荐使用 100nF 100pF 两个电容并联 C2&#xff1a;推荐使用 100pF 电容 C3&#xff1a;推荐使用 n*10μF1*100nF 电容并联&#xff0c;总容值不小于 30μF R1&#xff1a;推荐使用 10kΩ电阻 注&#x…

dbt doc 生成文档命令示例应用

DBT提供了强大的命令行工具&#xff0c;它使数据分析师和工程师能够更有效地转换仓库中的数据。dbt的一个关键特性是能够为数据模型生成文档&#xff0c;这就是dbt docs命令发挥作用的地方。本教程将指导您完成使用dbt生成和提供项目文档的过程。 dbt doc 命令 dbt docs命令有…

【C++】map和set的介绍以及用法

个人主页 文章目录 ⭐一、系列式容器和关联式容器&#x1f680;二、set的使用1. set类的介绍2. set的构造3. set的迭代器4. set的常用函数 &#x1f3a1;三、multiset&#x1f384;四、map类的使用1. map类的介绍2. map的构造3. map的迭代器4. map的operator[]5. map的常用函数…

git删除错误的commit

文章目录 1、git删除错误的commit2、.gitignore配置文件不生效的问题 1、git删除错误的commit git的流程如图&#xff1a; 当某次失误造成commit的版本有问题&#xff0c;需要回退到正常的版本修改后重新add。 首先通过git log查看commit提交记录&#xff0c;可以看到HEAD-…

【在Linux世界中追寻伟大的One Piece】信号捕捉|阻塞信号

目录 1 -> 信号捕捉初识 2 -> 阻塞信号 2.1 -> 信号其他相关常见概念 2.2 -> 在内核中的表示 2.3 -> sigset_t 2.4 -> 信号集操作函数 2.5 -> sigprocmask 2.6 -> sigpending 3 -> 捕捉信号 3.1 -> 内核如何实现信号的捕捉 3.2 ->…

在Spring Boot中具有多个实现的接口正确注入的六种方式

​ 博客主页: 南来_北往 系列专栏&#xff1a;Spring Boot实战 在Spring Boot中&#xff0c;当一个接口具有多个实现时&#xff0c;正确地将这些实现注入到需要使用它们的地方是一个常见的需求。以下是在Spring Boot中实现这一目标的六种方式&#xff1a; 1. 使用Autowir…

Apple A18 和 A18 Pro 的裸晶照揭示出兩款處理器有著不同的設計

向來蘋果在發布使用新晶片的設備後&#xff0c;就會有人為新晶片進行詳細剖析&#xff0c;看看蘋果在新處理器上面又使用了什麼新技術。如今 iPhone 16 系列已經推出&#xff0c; Apple A18 和A18 Pro 兩款處理器自然也成為了研究對象。最近就有機構將 Apple A18 和 A18 Pro 兩…

雷池社区版本SYSlog使用教程

雷池会对恶意攻击进行拦截&#xff0c;但是日志都在雷池机器上显示 如何把日志都同步到相关设备进行统一的管理和分析呢&#xff1f; 如需将雷池攻击日志实时同步到第三方服务器, 可使用雷池的 Syslog 外发 功能 启用 Syslog 外发 进入雷池 系统设置 页面, 配置 Syslog 设置…

Miniconda更改虚拟环境创建路径

Miniconda更改虚拟环境创建路径 文章目录 Miniconda更改虚拟环境创建路径前言步骤一 修改配置文件步骤二 提升路径访问权限步骤三 测试配置修改是否生效 前言 在我使用 conda 命令创建新的虚拟环境时&#xff0c;发现创建好的虚拟环境存放路径是在 ../miniconda3/pkgs/ 路径下…