【linux】nvitop 导致 CPU 软锁死记录

记录一次系统异常重启。发现是大概4小时之前重启。

排查日志,寻找线索

限定在过去6小时内查找重启原因:

  1. 检查过去6小时内的内核日志:

    journalctl --since="6 hours ago" | grep -i "kernel|panic|oom|killed|crash|error"
    
  2. 查看重启前的最后日志:

    journalctl -b -1 -n 200
    
  3. 查看过去6小时的硬件错误:

    journalctl --since="6 hours ago" | grep -i "hardware|error|fail|temp|therm|overheat"
    
  4. 检查电源相关问题:

    journalctl --since="6 hours ago" | grep -i "power|voltage|current|ups"
    
  5. 检查看门狗触发记录:

    journalctl --since="6 hours ago" | grep -i "watchdog"
    
  6. 检查过去6小时的系统服务错误:

    journalctl --since="6 hours ago" -p err..emerg
    
  7. 检查资源耗尽情况:

    journalctl --since="6 hours ago" | grep -i "memory|cpu|load|out of"
    
  8. 检查任何可能的计划重启:

    journalctl --since="6 hours ago" | grep -i "reboot|restart|shutdown"
    
  9. 查看重启前最后的进程活动:

    journalctl -b -1 -n 50 | grep -i "process"
    
  10. 检查安全相关日志:

    journalctl --since="6 hours ago" | grep -i "authentication|security|attack|intrusion"
    

发现看门狗日志非常可疑

排查日志,发现只有看门狗日志时间对的上


(base) kent@kent-Super-Server:~$ journalctl --since="6 hours ago" | grep -i "watchdog"
324 06:21:25 kent-Super-Server kernel: watchdog: BUG: soft lockup - CPU#1 stuck for 26s! [nvitop:723587]
324 06:28:20 kent-Super-Server kernel: NMI watchdog: Enabled. Permanently consumes one hw-PMU counter.
324 06:28:21 kent-Super-Server kernel: bnxt_en 0000:04:00.0 (unnamed net_device) (uninitialized): Device requests max timeout of 100 seconds, may trigger hung task watchdog
324 06:28:21 kent-Super-Server kernel: bnxt_en 0000:04:00.1 (unnamed net_device) (uninitialized): Device requests max timeout of 100 seconds, may trigger hung task watchdog
324 06:29:50 kent-Super-Server rtkit-daemon[33496]: Watchdog thread running.
(base) kent@kent-Super-Server:~$ journalctl --since="24 hours ago" | grep -i "watchdog"
324 06:21:25 kent-Super-Server kernel: watchdog: BUG: soft lockup - CPU#1 stuck for 26s! [nvitop:723587]
324 06:28:20 kent-Super-Server kernel: NMI watchdog: Enabled. Permanently consumes one hw-PMU counter.
324 06:28:21 kent-Super-Server kernel: bnxt_en 0000:04:00.0 (unnamed net_device) (uninitialized): Device requests max timeout of 100 seconds, may trigger hung task watchdog
324 06:28:21 kent-Super-Server kernel: bnxt_en 0000:04:00.1 (unnamed net_device) (uninitialized): Device requests max timeout of 100 seconds, may trigger hung task watchdog
324 06:29:50 kent-Super-Server rtkit-daemon[33496]: Watchdog thread running.
(base) kent@kent-Super-Server:~$ journalctl --since="240 hours ago" | grep -i "watchdog"
324 06:21:25 kent-Super-Server kernel: watchdog: BUG: soft lockup - CPU#1 stuck for 26s! [nvitop:723587]
324 06:28:20 kent-Super-Server kernel: NMI watchdog: Enabled. Permanently consumes one hw-PMU counter.
324 06:28:21 kent-Super-Server kernel: bnxt_en 0000:04:00.0 (unnamed net_device) (uninitialized): Device requests max timeout of 100 seconds, may trigger hung task watchdog
324 06:28:21 kent-Super-Server kernel: bnxt_en 0000:04:00.1 (unnamed net_device) (uninitialized): Device requests max timeout of 100 seconds, may trigger hung task watchdog
324 06:29:50 kent-Super-Server rtkit-daemon[33496]: Watchdog thread running.
(base) kent@kent-Super-Server:~$

原因分析

这条日志确实可能解释了系统重启的原因:

3月 24 06:21:25 kent-Super-Server kernel: watchdog: BUG: soft lockup - CPU#1 stuck for 26s! [nvitop:723587]

这条信息表明系统在3月24日6:21:25检测到一个"软锁死"(soft lockup)问题。具体来说:

  • CPU#1被卡住了26秒没有响应
  • 问题与一个名为nvitop的进程有关,进程ID是723587
  • 这个nvitop通常是用于监控NVIDIA GPU的工具

Linux内核有一个看门狗(watchdog)机制,当它检测到某个CPU核心长时间不响应时,会记录类似上面的错误。这种软锁死可能表明:

  1. 在nvitop程序运行时,CPU#1陷入了长时间的卡顿状态
  2. 如果锁死情况持续或恶化,系统可能会触发自动重启机制

值得注意的是:

  • 这个错误发生在6:21:25,而您之前的日志显示系统在5:44左右有最后记录
  • 这可能意味着:
    1. 系统在5:44后出现严重问题但没有记录日志
    2. 6:21:25的日志是重启后新的一轮启动过程中的记录

建议进一步操作:

  1. 检查nvitop程序的使用情况:

    ps aux | grep nvitop
    
  2. 查看完整的锁死上下文:

    journalctl --since="12 hours ago" -u kernel
    
  3. 检查与NVIDIA GPU相关的日志:

    journalctl --since="12 hours ago" | grep -i "nvidia"
    
  4. 如果这种软锁死问题经常发生,可能需要:

    • 更新NVIDIA驱动
    • 检查是否有过热问题
    • 调整nvitop的使用方式
    • 考虑增加系统的sysctl参数来控制软锁死行为

软锁死通常不会立即导致系统重启,但持续的软锁死可能引发更严重的问题,最终触发看门狗计时器或内核崩溃导致重启。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/41381.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CPU架构和微架构

CPU架构(CPU Architecture) CPU架构是指处理器的整体设计框架,定义了处理器的指令集、寄存器、内存管理方式等。它是处理器设计的顶层规范,决定了软件如何与硬件交互。 主要特点: 指令集架构(ISA, Instr…

6.4 模拟专题:LeetCode1419.数青蛙

1.题目链接:数青蛙 - LeetCode 2.题目描述 给定一个字符串 croakOfFrogs,表示青蛙的鸣叫声序列。每个青蛙必须按顺序发出完整的 “croak” 字符,且多只青蛙可以同时鸣叫。要求计算最少需要多少只青蛙才能完成该字符串,若无法完成…

Linux 搭建dns主域解析,和反向解析

#!/bin/bash # DNS主域名服务 # user li 20250325# 检查当前用户是否为root用户 # 因为配置DNS服务通常需要较高的权限,只有root用户才能进行一些关键操作 if [ "$USER" ! "root" ]; then# 如果不是root用户,输出错误信息echo "…

Leetcode 二进制求和

java solution class Solution {public String addBinary(String a, String b) {StringBuilder result new StringBuilder();//首先设置2个指针, 从右往左处理int i a.length() - 1;int j b.length() - 1;int carry 0; //设置进位标志位//从2个字符串的末尾向前遍历while(…

【NLP 49、提示工程 prompt engineering】

目录 一、基本介绍 语言模型生成文本的基本特点 提示工程 prompt engineering 提示工程的优势 使用注意事项 ① 安全问题 ② 可信度问题 ③ 时效性与专业性 二、应用场景 能 ≠ 适合 应用场景 —— 百科知识 应用场景 —— 写文案 应用场景 —— 解释 / 编写…

【NLP 43、文本生成任务】

目录 一、生成式任务 二、seq2seq任务 1.模型结构 2.工作原理 3.局限性 三、自回归语言模型训练 Decoder only 四、自回归模型结构:文本生成任务 —— Embedding LSTM 代码示例 🚀 数据文件 代码流程 Ⅰ、模型初始化 Ⅱ、前向计算 代码运行流程 Ⅲ、加载…

vscode 通过Remote-ssh远程连接服务器报错 could not establish connection to ubuntu

vscode 通过Remote-ssh插件远程连接服务器报错 could not establish connection to ubuntu,并且出现下面的错误打印: [21:00:57.307] Log Level: 2 [21:00:57.350] SSH Resolver called for "ssh-remoteubuntu", attempt 1 [21:00:57.359] r…

Linux之编辑器vim命令

vi/vim命令: 终端下编辑文件的首选工具,号称编辑器之神 基本上分为三种模式,分别是 命令模式(command mode)>输入vi的命令和快捷键,默认打开文件的时候的模式插入模式(insert mode&#x…

第一天学爬虫

阅读提示:我今天才开始尝试爬虫,写的不好请见谅。 一、准备工具 requests库:发送HTTP请求并获取网页内容。BeautifulSoup库:解析HTML页面并提取数据。pandas库:保存抓取到的数据到CSV文件中。 二、爬取步骤 发送请求…

MySQL实战(尚硅谷)

要求 代码 # 准备数据 CREATE DATABASE IF NOT EXISTS company;USE company;CREATE TABLE IF NOT EXISTS employees(employee_id INT PRIMARY KEY,first_name VARCHAR(50),last_name VARCHAR(50),department_id INT );DESC employees;CREATE TABLE IF NOT EXISTS departments…

windows下安装sublime

sublime4 alpha 4098 版本 下载 可以根据待破解的版本选择下载 https://www.sublimetext.com/dev crack alpha4098 的licence 在----- BEGIN LICENSE ----- TwitterInc 200 User License EA7E-890007 1D77F72E 390CDD93 4DCBA022 FAF60790 61AA12C0 A37081C5 D0316412 4584D…

激光线检测算法的FPGA实现

激光线检测算法的FPGA实现 1. 常见的激光线检测算法 激光线检测中常用的三种算法 MAX(最大值法)、THRESH(阈值法)、COG(灰度重心法) 分别具有以下特点和工作原理: 1.1 MAX(最大值法…

小样本微调大模型

一、环境搭建 conda create -n dseek python=3.10 conda activate dseek pip install bitsandbytes Pip install numpy python -m pip install --upgrade pip setuptools wheel 安装cuda,torch,Unsloth, huggingface,wandb等,见前述章节; 微调服务器配置:单机笔记本显卡4…

深入理解指针(2)(C语言版)

文章目录 前言一、数组名的理解二、使用指针访问数组三、一维数组传参的本质四、冒泡排序五、二级指针六、指针数组七、指针数组模拟二维数组总结 前言 在上一篇文章中,我们初步了解了指针的基本概念和用法。今天,我们将继续深入探索指针在数组、函数传…

高效内存管理:x86-64架构中的分页机制

在 x86-64 架构的世界里,内存分页机制扮演着举足轻重的角色,它就像是一座桥梁,连接着虚拟地址与物理地址。简单来说,内存分页机制就是将线性地址(也就是虚拟地址)切分成一个个固定大小的页,并把…

统一开放世界与开放词汇检测:YOLO-UniOW无需增量学习的高效通用开放世界目标检测框架

目录 一、摘要 二、引言 三、相关工作 开放词汇对象检测 开放世界目标检测 参数高效学习 四、高效通用的开放世界目标检测 问题定义 高效的自适应决策学习 开放世界通配符学习 五、Coovally AI模型训练与应用平台 六、实验 数据集 评价指标 实施细节 定量结果 …

fileinclude

##解题思路 场景首页没有什么提示,只有个flag在flag.php中,而且需要更改language,还有个index.php的路径,先记住它 习惯性查看源代码,得到了题目真正的内容,关键在于lan变量读取我们传入的Cookie值中的lang…

链表-LeetCode

这里写目录标题 1 排序链表1.1 插入法 O(n)1.2 归并排序 1 排序链表 1.1 插入法 O(n) /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode() : val(0), next(nullpt…

计算机网络基础:WiFi 与蓝牙的原理与应用

计算机网络基础:WiFi 与蓝牙的原理与应用 一、前言二、WiFi 原理2.1 概述2.2 工作频段2.2.1 2.4GHz 频段2.2.2 5GHz 频段2.3 调制技术2.3.1 正交频分复用(OFDM)2.3.2 直接序列扩频(DSSS)2.4 通信协议2.5 网络架构2.5.1 独立基本服务集(IBSS)2.5.2 基础服务集(BSS)2.5.…

深入解析 Java 类加载机制及双亲委派模型

🔍 Java的类加载机制是确保应用程序正确运行的基础,特别是双亲委派模型,它通过父类加载器逐层加载类,避免冲突和重复加载。但在某些特殊场景下,破坏双亲委派模型会带来意想不到的效果。本文将深入解析Java类加载机制、…