深度学习篇---深度学习中的范数


文章目录

  • 前言
  • 一、向量范数
    • 1.L0范数
      • 1.1定义
      • 1.2计算式
      • 1.3特点
      • 1.4应用场景
        • 1.4.1特征选择
        • 1.4.2压缩感知
    • 2.L1范数(曼哈顿范数)
      • 2.1定义
      • 2.2计算式
      • 2.3特点
      • 2.4应用场景
        • 2.4.1L1正则化
        • 2.4.2鲁棒回归
    • 3.L2范数(欧几里得范数)
      • 3.1定义
      • 3.2特点
      • 3.3应用场景
    • 4.L∞范数(最大范数)
      • 4.1定义
      • 4.2计算式
      • 4.3特点
      • 4.4应用场景
    • 5.Lp范数(广义范数)
      • 5.1定义
      • 5.2计算式
      • 5.3特点
  • 二、矩阵范数
    • 1. Frobenius范数(矩阵L2范数)
      • 1.1定义
      • 1.2特点
      • 1.3应用场景
    • 2. 核范数(迹范数)
      • 2.1定义
      • 2.2计算式
      • 2.3特点
      • 2.4应用场景
    • 3. 谱范数(最大奇异值范数)
      • 3.1定义
      • 3.2计算式
      • 3.3特点
      • 3.4应用场景
  • 三、范数在深度学习中的核心应用
    • 1. 正则化(防止过拟合)
      • 1.1L1正则化
      • 1.2L2正则化
    • 2. 损失函数设计
      • 2.1L1损失
      • 2.2L2损失
    • 3. 权重约束与优化
      • 3.1梯度裁剪
      • 3.2谱归一化
    • 4. 模型压缩与稀疏化
      • 4.1L1正则化
      • 4.2结构化范数
    • 5. 对抗防御
      • 5.1L∞范数
  • 四、不同范数的对比与选择
  • 五、总结
    • L1/L2范数
    • 矩阵范数
  • 范数选择原则


前言

本文介绍了一系列范数的定义、计算、使用。比如L1\L2\L∞\Frobenius范数(矩阵L2范数),用于正则化(防止过拟合)、损失函数。


一、向量范数

1.L0范数

1.1定义

向量中非零元素的数量

1.2计算式

L0范数的定义

1.3特点

  1. 非凸计算困难(NP难问题)。
  2. 用于稀疏性约束,但实际常用L1范数替代

1.4应用场景

1.4.1特征选择

特征选择(稀疏特征提取)。

1.4.2压缩感知

压缩感知(信号稀疏表示)。

2.L1范数(曼哈顿范数)

2.1定义

定义:向量元素绝对值之和

2.2计算式

L1范数

2.3特点

  1. 凸函数,可优化性强
  2. 诱导稀疏性:优化过程中倾向于将部分参数置零
  3. 几何解释:菱形等高线,在坐标轴处有“尖角”(稀疏性来源)。

2.4应用场景

2.4.1L1正则化

L1正则化(Lasso):用于线性回归、神经网络权重稀疏化

2.4.2鲁棒回归

鲁棒回归(如最小绝对偏差)。

3.L2范数(欧几里得范数)

3.1定义

定义:向量元素平方和的平方根。

L2范数

3.2特点

  1. 严格凸,优化稳定。
  2. 抑制大参数值,防止过拟合。
  3. 几何解释:圆形等高线,各方向平滑下降。

3.3应用场景

  1. L2正则化(岭回归、权重衰减):防止模型过拟合。
  2. 损失函数(如均方误差损失)。

4.L∞范数(最大范数)

4.1定义

定义:向量元素绝对值的最大值

4.2计算式

L∞范数

4.3特点

  1. 关注最大幅值的元素。
  2. 对抗样本生成中用于约束扰动大小

4.4应用场景

  1. 对抗训练(限制扰动的最大幅度)。
  2. 梯度裁剪(防止梯度爆炸)。

5.Lp范数(广义范数)

5.1定义

定义:向量元素绝对值的p次方和的1/p次幂。

5.2计算式

Lp范数

5.3特点

p=1时为L1范数,p=2时为L2范数,p→∞时趋近L∞范数
不同p值对应不同的稀疏性和平滑性权衡

二、矩阵范数

1. Frobenius范数(矩阵L2范数)

1.1定义

定义:矩阵元素平方和的平方根。
矩阵的L2范数

1.2特点

  1. 将矩阵视为向量后计算L2范数
  2. 衡量矩阵的“总能量”。

1.3应用场景

  1. 权重矩阵的正则化(如全连接层参数约束)。
  2. 矩阵分解(如PCA、SVD)。

2. 核范数(迹范数)

2.1定义

定义:矩阵奇异值之和。

2.2计算式

核范数

2.3特点

  1. 反映矩阵的低秩性质。
  2. 用于低秩矩阵恢复

2.4应用场景

  1. 推荐系统(矩阵补全,如Netflix问题)。
  2. 鲁棒PCA(分离低秩矩阵与稀疏噪声)。

3. 谱范数(最大奇异值范数)

3.1定义

定义:矩阵的最大奇异值

3.2计算式

谱范数

3.3特点

  1. 衡量矩阵对向量的最大拉伸程度
  2. Lipschitz连续性相关。

3.4应用场景

  1. 生成对抗网络(GAN):约束判别器的Lipschitz常数。
  2. 谱归一化(稳定训练过程)。

三、范数在深度学习中的核心应用

1. 正则化(防止过拟合)

1.1L1正则化

L1正则化:通过稀疏化权重减少模型复杂度(如Lasso回归)。

1.2L2正则化

L2正则化:通过限制权重幅度防止过拟合(如岭回归、神经网络权重衰减)。

2. 损失函数设计

2.1L1损失

L1损失(MAE):对异常值鲁棒,用于回归任务

2.2L2损失

L2损失(MSE):对异常值敏感,但优化更稳定

3. 权重约束与优化

3.1梯度裁剪

梯度裁剪:使用L2或L∞范数限制梯度大小,防止梯度爆炸。

3.2谱归一化

谱归一化:通过谱范数约束网络层的Lipschitz常数(如WGAN)。

4. 模型压缩与稀疏化

4.1L1正则化

L1正则化:生成稀疏权重矩阵,便于模型压缩(如剪枝)。

4.2结构化范数

结构化范数(如Group Lasso):约束特定参数组的稀疏性。

5. 对抗防御

5.1L∞范数

L∞约束:限制对抗扰动的大小(如对抗训练中的PGD攻击)。

四、不同范数的对比与选择

范数类型 稀疏性 计算复杂度 典型应用
L0 最强 NP难 理论分析,实际中少用
L1 强 低 特征选择、稀疏模型
L2 无 低 防止过拟合、稳定优化
L∞ 无 低 对抗训练、梯度裁剪
Frobenius 无 中 矩阵正则化、分解
核范数 低秩性 高 推荐系统、低秩恢复

五、总结

L1/L2范数

L1/L2范数:基础正则化工具,分别诱导稀疏性和平滑性。

矩阵范数

矩阵范数:处理高维数据、低秩建模及稳定训练。

范数选择原则

  1. 根据任务需求(稀疏性、低秩性、鲁棒性)。
  2. 考虑计算效率和优化难度
  3. 结合模型结构(如卷积层常用Frobenius范数,全连接层用L2)。

理解不同范数的特性及其几何意义,能够帮助设计更高效的模型架构、正则化策略和优化方法,从而提升深度学习模型的性能和泛化能力。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37921.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JVM常见概念之条件移动

问题 当我们有分支频率数据时,有什么有趣的技巧可以做吗?什么是条件移动? 基础知识 如果您需要在来自一个分支的两个结果之间进行选择,那么您可以在 ISA 级别做两件不同的事情。 首先,你可以创建一个分支&#xff…

Debug-037-table列表勾选回显方案

效果展示: 图1 图2 最近实现一个支持勾选的el-table可以回显之前勾选项的功能。实现了一个“编辑”的功能: 在图1中的列表中有三行数据,当点击“更换设备”按钮时,打开抽屉显示el-table组件如图2所示,可以直接回显勾选…

Python散点图(Scatter Plot):数据探索的“第一张图表”

在数据可视化领域,散点图是一种强大而灵活的工具,它能够帮助我们直观地理解和探索数据集中变量之间的关系。本文将深入探讨散点图的核心原理、应用场景以及如何使用Python进行高效绘制。 后续几篇将介绍高级技巧、复杂应用场景。 Python散点图(Scatter Plot):高阶分析、散点…

docker利用ollama +Open WebGUI在本地搭建部署一套Deepseek-r1模型

系统:没有限制,可以运行docker就行 磁盘空间:至少预留50GB; 内存:8GB docker版本:4.38.0 桌面版 下载ollama镜像 由于docker镜像地址,网络不太稳定,建议科学上网的一台服务器拉取ollama镜像&am…

JavaScript |(六)DOM事件 | 尚硅谷JavaScript基础实战

学习来源:尚硅谷JavaScript基础&实战丨JS入门到精通全套完整版 笔记来源:在这位大佬的基础上添加了一些东西,欢迎大家支持原创,大佬太棒了:JavaScript |(六)DOM事件 | 尚硅谷JavaScript基础…

卷积神经网络 - 梯度和反向传播算法

在卷积网络中,参数为卷积核中权重以及偏置。和全连接前馈网络类似,卷积网络也可以通过误差反向传播算法来进行参数学习。本文我们从数学角度,来学习卷积神经网络梯度的推导和其反向传播算法的原理。 一、梯度:损失函数 L 关于第 …

鸿蒙NEXT项目实战-百得知识库03

代码仓地址,大家记得点个star IbestKnowTeach: 百得知识库基于鸿蒙NEXT稳定版实现的一款企业级开发项目案例。 本案例涉及到多个鸿蒙相关技术知识点: 1、布局 2、配置文件 3、组件的封装和使用 4、路由的使用 5、请求响应拦截器的封装 6、位置服务 7、三…

【测试篇】关于allpairs实现正交测试用例保姆级讲解,以及常见的错误问题

前言 🌟🌟本期讲解关于测试工具相关知识介绍~~~ 🌈感兴趣的小伙伴看一看小编主页:GGBondlctrl-CSDN博客 🔥 你的点赞就是小编不断更新的最大动力 🎆那么废话不多说…

OpenCV图像拼接(4)图像拼接模块的一个匹配器类cv::detail::BestOf2NearestRangeMatcher

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 cv::detail::BestOf2NearestRangeMatcher 是 OpenCV 库中用于图像拼接模块的一个匹配器类,专门用于寻找两幅图像之间的最佳特征点匹配…

C++: AVL树(实现旋转操作)

前言 map/set容器有个共同点是:其底层都是按照二叉搜索树来实现的,但是二叉搜索树有其自身的缺陷,假如往树中插入的元素有序或者接近有序,二叉搜索树就会退化成单支树,时间复杂度会退化成O(N),因此map、set…

OpenCV中距离公式

一、各类距离公式总结 常见距离公式 欧氏距离: 曼哈顿距离(L1)‌: 切比雪夫距离(Chessboard)‌: 1、点与点距离(欧氏距离) ‌二维空间‌ 设两点坐标为 P1(x1,y1)、P2(x2,y2),其距离…

六十天前端强化训练之第二十四天之Vue 模板语法与 v-for 指令大师级详解

欢迎来到编程星辰海的博客讲解 看完可以给一个免费的三连吗,谢谢大佬! 目录 一、模板语法与指令知识精讲 1.1 模板语法三大核心 1.2 常见指令全家福 1.3 v-for 深度解析 二、商品列表示例完整实现 2.1 完整可运行代码 2.2 代码解析 2.3 运行效果…

XSS跨站脚本攻击漏洞(Cross Site Scripting)

前提概要 本文章主要用于分享XSS跨站脚本攻击漏洞基础学习,以下是对XSS跨站脚本攻击漏洞的一些个人解析,请大家结合参考其他文章中的相关信息进行归纳和补充。 XSS跨站脚本攻击漏洞描述 跨站脚本攻击(XSS)漏洞是一种常见且危害较…

用ArcGIS做一张符合环评要求的植被类型图

植被类型图是环境影响评价(环评)中的重要图件,需满足数据准确性、制图规范性和信息完整性等要求。本教程将基于ArcMap平台,从数据准备到成果输出,详细讲解如何制作符合环评技术规范的植被类型图。 ArcGIS遥感解译土地…

详解string类+迭代器

迭代器 概念:在 C 中,迭代器是访问容器(如数组、列表、向量、字符串等)元素的一种方式。迭代器提供了一种统一的接口,使得你可以使用相同的代码来遍历不同类型的容器。迭代器本质上是一个指针或者指针的封装&#xff0…

Sqoop安装部署

Apache Sqoop 简介 Sqoop(SQL-to-Hadoop)是 Apache 开源项目,主要用于: 将关系型数据库中的数据导入 Hadoop 分布式文件系统(HDFS)或相关组件(如 Hive、HBase)。 将 Hadoop 处理后…

软件工程之软件验证计划Software Verification Plan

个人主页:云纳星辰怀自在 座右铭:“所谓坚持,就是觉得还有希望!” 本文为基于ISO26262软件验证计划模板,仅供参考。 软件验证计划,包括: 1. 软件需求验证计划 2. 软件架构设计验证计划 3. 软件单…

Windows系统本地部署OpenManus对接Ollama调用本地AI大模型

文章目录 前言1. 环境准备1.1 安装Python1.2. 安装conda 2. 本地部署OpenManus2.1 创建一个新conda环境2.2 克隆存储库2.3 安装依赖环境 3. 安装Ollama4. 安装QwQ 32B模型5. 修改OpenManus配置文件6. 运行OpenManus7.通过网页使用OpenManus8. 安装内网穿透8.1 配置随机公网地址…

计算机网络总结

一、IP地址及子网掩码、MAC 二、DNS、ARP 三、DHCP、UDP、TCP 四、NAT、NAPT、端口、网关 五、路由器与交换机 六、OSI模型 一、IP地址及子网掩码、MAC 1.1 IP地址的作用 用来全局网络通信(门牌号)用来区分相同网络之间的主机 1.2 子网掩码的作用 …

MySQL0基础学习记录-下载与安装

下载 下载地址: (Windows)https://dev.mysql.com/downloads/file/?id536787 安装 直接点next,出现: 点execute 然后一直next到这页: next 然后需要给root设置一个密码: 在next。。很多页…