PyTorch - 模型训练损失 (Loss) NaN 问题的解决方案

PyTorch - 模型训练损失 (Loss) NaN 问题的解决方案

news/2024/12/24 4:06:59/文章来源:https://blog.csdn.net/u012515223/article/details/133378367

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/133378367

在模型训练中，如果出现 NaN 的问题，严重影响 Loss 的反传过程，因此，需要加入一些微小值进行处理，避免影响模型的训练结果。

例如，交叉熵损失 sigmoid_cross_entropy，包括对数函数(log) ，当计算 log 值时，当输入为0时，则会导致溢出，因此，需要加入极小值 (例如 1e-8) 约束，避免溢出。

交叉熵公式：

$\hat{y}) = -\frac{1}{N} \sum_{i=1}^N [y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)]$

Log 曲线：

log

即：

# 额外增加 eps，可以避免数值溢出
def sigmoid_cross_entropy(logits, labels, eps=1e-8):logits = logits.float()log_p = torch.log(torch.sigmoid(logits)+eps)log_not_p = torch.log(torch.sigmoid(-logits)+eps)loss = -labels * log_p - (1 - labels) * log_not_preturn loss

Sigmoid Cross Entropy 是一种常用的损失函数，用于衡量二分类问题中模型的预测结果和真实标签之间的差异，作用是优化模型的参数，使得模型能够更好地拟合数据，提高分类的准确性。

参考：How to solve the loss become nan because of using torch.log()

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/145490.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

aarch64 平台 musl gcc 工具链手动编译方法

aarch64 平台 musl gcc 工具链手动编译方法

目标手动编译一个 aarch64 平台的 musl gcc 工具链 musl libc 与 glibc、uclibc 等，都是标准C 库， musl libc 是基于系统调用之上的标准C 库，也就是用户态的标准C 库。 musl libc 轻量、开源、免费，是一些操作系统的选择，当前 Lite-OS 与 RT-Smart 等均采用自制的 mu…

阅读更多...

Cannot download sources：IDEA源码无法下载

Cannot download sources：IDEA源码无法下载

问题 Swagger的相关包，无法看到注释； 在class文件的页面，点击下载源码，源码下载不了，IDEA报下面的错误。报错 Cannot download sources Sources not found for: io.swagger.core.v3:swagger-annotations:2.2.9 解决…

阅读更多...

asp.net core automapper的使用

asp.net core automapper的使用

1.安装automapper的nuget包 AutoMapper.Extensions.Microsoft.DependencyInjection 2.创建需要映射的类和转换后的类 public class studto{public int sn { get; set; }public string name { get; set; }public string sex { get; set; }public int age { get; set; }public s…

阅读更多...

c#设计模式-结构型模式之装饰者模式

c#设计模式-结构型模式之装饰者模式

🚀介绍在装饰者模式中，装饰者类通常对原始类的功能进行增强或减弱。这种模式是在不必改变原始类的情况下，动态地扩展一个对象的功能。这种类型的设计模式属于结构型模式，因为这种模式涉及到两个类型之间的关系，这两个…

阅读更多...

幂级数和幂级数的和函数有什么关系？

幂级数和幂级数的和函数有什么关系？

幂级数和幂级数的和函数有什么关系？ 本文例子引用自：80_1幂级数运算，逐项积分、求导【小元老师】高等数学，考研数学求幂级数 ∑ n 1 ∞ 1 n x n \sum\limits_{n1}^{\infty}\frac{1}{n}x^n n1∑∞n1xn 的和函数 &#xff…

阅读更多...

视频监控/视频汇聚/安防视频监控平台EasyCVR配置集群后有一台显示离线是什么原因？

视频监控/视频汇聚/安防视频监控平台EasyCVR配置集群后有一台显示离线是什么原因？

开源EasyDarwin视频监控TSINGSEE青犀视频平台EasyCVR能在复杂的网络环境中，将分散的各类视频资源进行统一汇聚、整合、集中管理，在视频监控播放上，TSINGSEE青犀视频安防监控汇聚平台可支持1、4、9、16个画面窗口播放，可同时播放多…

阅读更多...

【计算机网络】因特网中的电子邮件

【计算机网络】因特网中的电子邮件

文章目录简单邮件传送协议SMTP邮件访问协议POP3IMAPHTTP 参考资料电子邮件为异步通信媒介因特网电子邮件系统电子邮件系统的三个构件：用户代理、邮件服务器、邮件发送和读取协议用户代理 User Agent 即UA 电子邮件客户端软件，用户与电子邮件系统的接…

阅读更多...

面试记录_

面试记录_

1：面试杉岩数据（python开发） 1.1.1 选择题 for(int i0;i<n;i){for(int j0;j<n;jji) } }O(n) * (O(0) O(n/1) O(n/2) O(n/3) ... O(n/n)) 在最坏情况下，内部循环的迭代次数为 n/1 n/2 n/3 ... n/n，这是…

阅读更多...

【QT开发（6）】0926-QT 中加入 fastDDS 通信库的程序使用说明

【QT开发（6）】0926-QT 中加入 fastDDS 通信库的程序使用说明

在智能驾驶中，DDS有可能被广泛使用，因此推出这篇说明教程。 1、基于【QT开发（5）】教程的项目文档进行开发 2、安装DDS 查看《【eProsima Fast DDS（1）】安装eProsima Fast DDS》至少安装: foonathan_m…

阅读更多...

论文笔记（整理）：轨迹相似度顶会论文中使用的数据集

论文笔记（整理）：轨迹相似度顶会论文中使用的数据集

0 汇总数据类型数据名称数据处理出租车数据波尔图原始数据：2013年7月到2014年6月，170万条数据 ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention 过滤位于城市（或国家）区域之外的轨迹过…

阅读更多...

AOP：分页参数统一校验

AOP：分页参数统一校验

需求说明为了保证系统的安全性，需要对所有的查询列表接口，添加分页参数，并对分页参数进行校验， ，保证参数的合法性。比如， pageSize（每页显示条数），如果不做校验&a…

阅读更多...

完整指南：如何使用 Node.js 复制文件

完整指南：如何使用 Node.js 复制文件

文件拷贝指的是将一个文件的数据复制到另一个文件中，使目标文件与源文件内容一致。Node.js 提供了文件系统模块 fs，通过该模块可以访问文件系统，实现文件操作，包括拷贝文件。 Node.js 中文件拷贝方法在 Node.js 中，有…

阅读更多...

Python3数据科学包系列(一):数据分析实战

Python3数据科学包系列(一):数据分析实战

一: 数据分析高级语法：序列(Series) # -*- coding:utf-8 -*-from pandas import Seriesprint(-------------------------------------序列Series定义与取值-------------------------------------------) print("""Series序列可以省略,此时索引号默…

阅读更多...

What is an HTTP Flood DDoS attack?

What is an HTTP Flood DDoS attack?

HTTP 洪水攻击是一种针对 Web 和应用程序服务器的第 7 层分布式拒绝服务 （DDoS） 攻击。HTTP 洪水攻击通过使用 HTTP GET 或 HTTP POST 请求执行 DDoS 攻击。这些请求是有效的，并且针对可用资源，因此很难防范 HTTP 洪水攻击。匿名…

阅读更多...

【AI视野·今日Robot 机器人论文速览第四十四期】Fri, 29 Sep 2023

【AI视野·今日Robot 机器人论文速览第四十四期】Fri, 29 Sep 2023

AI视野今日CS.Robotics 机器人学论文速览 Fri, 29 Sep 2023 Totally 38 papers 👉上期速览✈更多精彩请移步主页 Interesting: 📚NCF,基于Neural Contact Fields神经接触场的方法实现有效的外部接触估计和插入操作。 (from FAIR ) 操作插入处理结果&am…

阅读更多...

Go_原子操作和锁

Go_原子操作和锁

原子操作和锁本文先探究并发问题，再探究锁和原子操作解决问题的方式，最后进行对比。并发问题首先，我们看一下程序 num该程序表面看上去一步就可以运行完成，但是实际上，在计算机中是分三步运行的，如下…

阅读更多...

相机数据恢复！详细步骤解析（2023新版）

和朋友在外面旅游用相机拍了好多有意义的照片和视频，但是导入电脑后不知道是被我删除了还是什么原因，这些照片都不见了，请问有方法恢复吗？” 在数字摄影时代，我们依赖相机记录珍贵的瞬间。然而，相机数据丢失…

阅读更多...

LeNet网络复现

LeNet网络复现

文章目录 1. LeNet历史背景1.1 早期神经网络的挑战1.2 LeNet的诞生背景 2. LeNet详细结构2.1 总览2.2 卷积层与其特点2.3 子采样层（池化层）2.4 全连接层2.5 输出层及激活函数 3. LeNet实战复现3.1 模型搭建model.py3.2 训练模型train.py3.3 测试模型test…

阅读更多...

MyBatisPlus（七）等值查询

MyBatisPlus（七）等值查询

等值查询条件查询：使用 Wrapper 对象，传递查询条件。 QueryWrapper（不要使用） 代码 Testvoid eq() {QueryWrapper<User> wrapper new QueryWrapper<>();wrapper.eq("name", "张三");List<…

阅读更多...

httpserver 下载服务器demo

httpserver 下载服务器demo

实现效果如下： 图片可以直接显示 cpp h 这些可以直接显示其他的则是提示是否要下载单线程还有bug 代码如下先放上来 #include "httpserver.h" #include "stdio.h" #include <stdlib.h> #include <arpa/inet.h> #include…

阅读更多...

最新文章

推荐文章