如何监控和优化服务器的 CPU 性能

一、实时监控与诊断工具

1. 核心监控工具

bash

复制

# 实时CPU使用率监控
top -H -p <PID>         # 按线程查看CPU占用
htop --sort-key=PERCENT_CPU  # 可视化进程CPU排序
mpstat -P ALL 1         # 每核心使用率统计

2. 上下文切换分析

bash

复制

pidstat -w -p <PID> 1   # 进程上下文切换频率
dstat -c -y --top-cpu   # 综合系统调用监控

3. 性能事件采样

bash

复制

perf top -g -p <PID>    # 实时函数级CPU热点分析
perf record -F 99 -g -p <PID> -- sleep 10  # 采样生成火焰图

二、深度性能分析

1. 中断负载检测

bash

复制

cat /proc/interrupts | sort -nr | head -20  # 高频率中断源
watch -n1 "grep MHz /proc/cpuinfo"  # 实时CPU频率监控

2. 调度延迟诊断

bash

复制

trace-cmd record -e sched:sched_stat*  # 调度延迟追踪
/usr/share/bcc/tools/runqlat -mT 1    # 运行队列延迟分析

3. 缓存效率分析

bash

复制

perf stat -e cache-misses,cache-references -p <PID>  # L1/L2缓存命中率
likwid-perfctr -C 0-3 -g MEM_DP ./app   # 内存带宽压力测试

三、优化策略实施

1. 进程级优化

bash

复制

chrt -f 99 <command>    # 设置实时优先级
taskset -c 0-3 <command> # CPU核心绑定
systemctl set-property httpd.service CPUQuota=200%  # Cgroup配额限制

2. 内核参数调优

bash

复制

# /etc/sysctl.conf
kernel.sched_autogroup_enabled = 0  # 禁用自动进程分组
kernel.numa_balancing = 0           # 关闭NUMA自动平衡
kernel.sched_migration_cost_ns = 5000000  # 提升任务迁移阈值# 应用配置
sysctl -p

3. 编译器级优化

bash

复制

gcc -O3 -march=native -flto -pipe -fomit-frame-pointer -o app app.c
clang -O3 -mavx2 -fvectorize -pthread -o app app.cpp

四、高级优化技术

1. NUMA架构优化

bash

复制

numactl --cpunodebind=0 --membind=0 ./app  # 强制本地内存访问
lstopo --of png > topology.png             # 生成NUMA拓扑图

2. 动态频率调节

bash

复制

cpupower frequency-set -g performance      # 锁定最高主频
intel_pstate/no_turbo=1                    # 禁用Intel Turbo Boost

3. 中断负载均衡

bash

复制

echo 2 > /proc/irq/<irq_num>/smp_affinity  # 绑定中断到特定核心
irqbalance --foreground --oneshot          # 智能中断分配

五、监控体系构建

1. 长期监控方案

bash

复制

# Prometheus + Node Exporter + Grafana
node_exporter --collector.cpu --collector.interrupts
# 关键指标：
- cpu_usage_guest
- cpu_core_throttles_seconds_total
- process_cpu_seconds_total

2. 异常检测规则

yaml

复制

# Alertmanager配置示例
- alert: HighCPUStealexpr: rate(node_cpu_seconds_total{mode="steal"}[5m]) * 100 > 10for: 10mlabels:severity: critical

3. 自动化分析工具链

bash

复制

# 使用FlameGraph生成性能报告
perf script | stackcollapse-perf.pl | flamegraph.pl > profile.svg
# 使用bpftrace进行动态追踪
bpftrace -e 'profile:hz:99 { @[ustack] = count(); }'

六、优化效果验证

优化措施	验证指标	预期改进幅度
CPU绑定	context_switches/sec	减少30%-50%
编译器优化	instructions_per_cycle	提升15%-25%
NUMA优化	local_memory_ratio	提升至90%+
调度策略调整	sched_latency_ns	降低40%-60%