快速点位排查问题的方法

一、核心思路：缩小问题范围

1. 分治法（Divide and Conquer）

原理：将复杂系统拆分为独立模块，逐层验证。
示例：

- 网络问题：检查客户端 → 本地网络 → 服务器 → 数据库。
- 代码问题：注释代码块 → 逐步启用，定位异常代码段。

2. 排除法（Elimination）

原理：通过禁用/替换组件，确认问题源。
示例：

- 服务器负载高：停用非核心服务，观察负载变化。
- 依赖冲突：移除可疑依赖库，验证功能恢复。

二、快速定位工具

1. 日志分析

关键命令：

# 实时追踪日志
tail -f /var/log/nginx/error.log# 按时间过滤（如最近5分钟）
grep "$(date -d '5 minutes ago' '+%Y-%m-%d %H:%M')" app.log# 按错误级别过滤
awk '/ERROR/ || /WARN/' system.log#按类名过滤和错误级别
awk '/ERROR/ || /FinFreightReceivableItemServiceImpl/' fin.log > fin20.log

2. 监控工具

系统级：

- top / htop：实时进程资源占用。
- iotop：磁盘 I/O 监控。
- nethogs：网络流量追踪。

服务级：

- Prometheus + Grafana：指标可视化。
- APM 工具（如 SkyWalking、New Relic）：代码级性能分析。

3. 网络诊断

连通性：

traceroute 8.8.8.8       # 路由追踪
mtr 8.8.8.8              # 持续网络质量监测

端口与服务：

netstat -tuln | grep 3306     # 检查端口监听状态
telnet mysql_server 3306      # 测试端口可达性

三、高频问题检查点

1. 资源瓶颈

CPU：us（用户进程）高 → 代码逻辑问题；sy（系统调用）高 → 内核或 I/O 瓶颈。
内存：free -h 观察 available，警惕 OOM Killer 日志。
磁盘：df -h 检查容量，iostat -x 1 看 %util（使用率）和 await（响应时间）。

2. 配置错误

常见陷阱：

- 防火墙规则（iptables / firewalld）。
- 文件权限（ls -l 检查用户/组）。
- 配置文件格式（如 YAML 缩进、JSON 括号匹配）。

3. 依赖服务

检查链：

- 数据库连接池是否耗尽（SHOW PROCESSLIST）。
- 缓存服务（Redis/Memcached）是否超时或内存不足。
- 第三方 API 的限流或认证失败（抓包工具 tcpdump / Wireshark）。

四、高级技巧

1. 最小化复现

步骤：

剥离生产环境数据，构造测试用例。
在简化环境中复现问题（如 Docker 容器）。

# 快速启动一个干净的测试环境
docker run -it --rm alpine:latest sh

2. 时间轴比对

方法：
- 对比故障前后系统变更（如 git diff、rpm -qa --last）。
- 检查定时任务（crontab -l）或日志轮转配置。

3. 假设驱动法

流程：
- 列出所有可能原因（如磁盘满、内存泄漏、代码 Bug）。
- 按概率排序，逐一验证或反证。

五、自动化辅助

1. 脚本化检查

# 快速检查系统健康状态
check_health() {echo "CPU Load: $(uptime)"echo "Memory: $(free -h | awk '/Mem/{print $4}') free"echo "Disk: $(df -h / | awk 'NR==2{print $5}') used"
}
check_health

2. 故障注入（Chaos Engineering）

工具：Chaos Monkey、kube-monkey。
场景：模拟网络延迟、服务宕机，验证系统容错能力。

六、经典问题速查表

现象	优先检查点
服务无响应	端口监听、进程存活、防火墙
请求超时	网络延迟、DNS、后端依赖服务
磁盘空间不足	日志文件、临时文件、Core Dump
内存泄漏	`pmap` `valgrind` JVM Heap
性能骤降	慢查询、锁竞争、GC 停顿