Linux系统性能监控利器，sar命令详解，Linux性能监控神器sar命令，你真的会用吗？，Linux性能监控神器sar命令，你真的会用吗？

昨天 9779阅读

Linux系统性能监控利器——sar命令详解，sar（System Activity Reporter）是Linux系统中强大的性能监控工具，能够全面收集、报告和分析系统资源使用情况，包括CPU、内存、磁盘I/O、网络等关键指标，通过内置的定时采样机制，sar可记录历史数据，帮助管理员回溯性能问题，其常用功能包括：sar -u查看CPU利用率，sar -r监控内存使用，sar -b分析磁盘吞吐量，以及sar -n DEV跟踪网络流量，结合-s和-e参数可指定时间范围，而-f选项支持从日志文件中读取历史数据，作为sysstat工具包的一部分，sar适合长期性能趋势分析，是运维人员诊断系统瓶颈、优化资源分配的高效神器，掌握sar命令，能显著提升Linux系统的监控与调优能力。，字数：约180字）

在Linux系统管理和性能调优工作中,准确监控系统资源使用情况是运维工作的核心环节，无论是排查服务器负载过高的问题，还是进行系统性能优化，都需要依赖专业的数据采集和分析工具。sar（System Activity Reporter）作为Linux系统中功能最全面的性能监控工具之一，能够持续收集、报告和保存系统的CPU、内存、磁盘、网络等关键指标的历史数据，本文将深入解析sar命令的功能特性、使用方法以及实际应用场景，帮助系统管理员和开发人员构建系统性能监控的完整知识体系。

图1：sar命令监控界面示意图（图片来源网络，侵删）

sar命令核心概念

sar工具定位

sar（System Activity Reporter）是sysstat工具包中的核心组件，作为命令行性能监控工具，它能够以可配置的时间间隔收集系统活动信息，并以直观的方式展示历史数据，与其他实时监控工具不同，sar的独特价值在于：

历史数据分析：默认保存30天的系统性能数据，支持回溯分析
全面监控覆盖：支持CPU、内存、磁盘I/O、网络、进程等关键指标
低开销运行：数据收集过程对系统性能影响极小（lt;1%CPU使用率）
跨平台兼容：支持绝大多数Linux发行版和不同硬件架构

sysstat工具生态系统

sysstat是一套完整的Linux性能监控工具集，各组件分工明确：

工具名称	主要功能	典型应用场景
`iostat`	监控磁盘I/O和CPU使用情况	存储性能分析、IO瓶颈定位
`mpstat`	报告每个CPU核心的利用率	多核CPU负载均衡分析、CPU热点排查
`pidstat`	监控进程级别的资源使用情况	异常进程诊断、资源占用分析
`vmstat`	报告虚拟内存、进程、CPU活动等	内存压力测试、系统整体负载评估
`sar`	综合系统活动报告	全面性能分析和历史问题追踪

主流Linux发行版的安装方法：

# Ubuntu/Debian系
sudo apt update && sudo apt install -y sysstat
# RHEL/CentOS系
sudo yum install -y sysstat
# Arch Linux系
sudo pacman -S sysstat
# openSUSE系
sudo zypper install sysstat
# 验证安装
sar -V

数据存储机制解析

sar采用智能化的数据存储策略，确保数据完整性的同时优化存储空间使用：

数据收集周期：
- 默认每10分钟收集一次完整系统快照
- 每天23:53生成当日汇总报告
- 支持自定义收集间隔（通过cron配置）

存储目录结构：

/var/log/sysstat/  # Debian/Ubuntu系列默认路径
├── sa01           # 1日的二进制详细数据
├── sa02           # 2日的二进制详细数据
└── sar01          # 1日的文本格式汇总报告
/var/log/sa/       # RHEL/CentOS系列默认路径
├── sa01
└── sar01

数据保留策略：
- 默认保留30天历史数据
- 可通过/etc/sysstat/sysstat配置文件调整：
```
# 设置历史数据保留天数
HISTORY=30
# 启用压缩以节省空间
COMPRESSAFTER=15
```

sar命令实战指南

实时监控技巧

基础监控命令：

sar 1 5  # 每秒采样1次，共采样5次

图2：CPU实时监控界面（图片来源网络，侵删）

典型输出解析：

Linux 5.4.0-91-generic (hostname)  06/15/2024  _x86_64_  (4 CPU)
10:30:01 AM     CPU     %user     %nice   %system   %iowait    %steal     %idle
10:30:02 AM     all      5.12      0.00      1.02      0.51      0.00     93.35
10:30:03 AM     all      4.98      0.00      1.23      0.34      0.00     93.45

关键指标说明：

%user：用户空间CPU占用率（应用程序代码执行）
%system：内核空间CPU占用率（系统调用、中断处理等）
%iowait：CPU等待I/O操作的时间占比（存储瓶颈指标）
%steal：虚拟化环境中被hypervisor偷取的CPU时间（云环境重要指标）
%idle：CPU空闲时间占比（理想值应保持在20-30%以上）

历史数据分析方法

查看特定日期的历史数据：

sar -f /var/log/sa/sa15  # 分析15号数据

时间范围筛选：

sar -u -s 09:00:00 -e 11:00:00  # 查看9-11点CPU数据

数据导出为CSV格式：

sadf -d /var/log/sa/sa15 -- -u > cpu_usage.csv

核心监控选项速查表

选项	监控重点	关键指标说明
`-u`	CPU使用率	%user, %system, %iowait, %idle
`-r`	内存利用率	kbmemfree, %memused, kbcached, kbbuffers
`-S`	交换空间使用	kbswpfree, %swpused, kbswpcad
`-b`	磁盘I/O概况	tps(每秒传输次数), rtps(读请求), wtps(写请求)
`-d`	块设备活动详情	dev8-0(设备标识), rd_sec/s(每秒读扇区), wr_sec/s
`-n DEV`	网络接口流量	rxpck/s(收包), txpck/s(发包), rxkB/s, txkB/s
`-n TCP`	TCP连接状态	active/s(主动连接), passive/s(被动连接), retrans/s
`-q`	系统负载	runq-sz(运行队列长度), plist-sz(进程总数), ldavg-1(1分钟负载)
`-w`	进程创建/上下文切换	proc/s(新进程数), cswch/s(上下文切换次数)
`-A`	所有统计信息	综合报告（相当于所有选项的组合）

典型应用场景深度解析

CPU性能瓶颈分析

监控命令：

sar -u 1 5  # 每秒采样，共5次
sar -P ALL  # 查看每个CPU核心的详细情况

图3：CPU负载分析示意图（图片来源网络，侵删）

诊断要点与解决方案：

用户态CPU高(%user)：
- 使用top或pidstat定位具体进程
- 优化应用程序算法和代码逻辑
- 考虑CPU绑定(affinity)或优先级调整
系统态CPU高(%system)：
- 检查系统调用频率(strace -c)
- 分析中断分布(cat /proc/interrupts)
- 优化内核参数(如减少TCP时间等待)
I/O等待高(%iowait)：
- 配合iostat分析磁盘性能
- 优化存储系统(RAID配置、SSD升级)
- 调整I/O调度器(echo deadline > /sys/block/sda/queue/scheduler)
Steal值高(%steal)：
- 联系云服务提供商调整资源分配
- 考虑迁移到专用主机或更高配置实例
- 优化应用减少CPU密集型操作

内存使用分析

监控命令：

sar -r 1 5  # 内存使用情况
sar -B      # 页交换统计
sar -W      # 页面交换统计

内存指标关系图：

graph TD
    A[物理内存] -->|kbmemused| B(已用内存)
    A -->|kbmemfree| C(空闲内存)
    B -->|kbcached| D(磁盘缓存)
    B -->|kbbuffers| E(缓冲区)
    A -->|kbinact| F(非活跃内存)
    A -->|kbanon| G(匿名页)

优化建议：

缓存利用率低：考虑降低vm.vfs_cache_pressure值
频繁交换：
- 增加物理内存
- 优化应用内存使用
- 调整swappiness参数(vm.swappiness=10)
内存泄漏检测：
- 使用sar -R监控内存分配速率
- 结合smem分析进程内存使用趋势

磁盘I/O性能分析

监控命令组合：

sar -b 1 5  # I/O概况
sar -d 1 5  # 设备级详情
sar -q      # 磁盘队列长度

高级分析技巧：

# 找出高IO设备
sar -d -p 1 3 | awk '/Average/ && ( > 50 ||  > 50)'
# 监控特定设备
sar -d -p | grep sda
# 分析IO等待与CPU关系
sar -u -d 1 10

性能优化方向：

硬件层：
- 升级为SSD/NVMe
- 优化RAID配置
- 增加磁盘数量分散I/O
系统层：
- 调整I/O调度器
- 优化文件系统挂载参数(noatime,data=writeback)
- 增加预读值(blockdev --setra 4096 /dev/sda)
应用层：
- 实现异步I/O
- 合并小文件操作
- 使用内存缓存减少磁盘访问

网络流量分析

全面网络监控：

sar -n DEV 1 5  # 接口流量
sar -n TCP 1 5  # TCP连接
sar -n EDEV 1 5 # 错误统计
sar -n SOCK 1 5 # 套接字使用

异常流量检测：

# 检测高流量网卡
sar -n DEV 1 10 | awk '/Average/ && ( > 10000 ||  > 10000)'
# 分析TCP重传
sar -n TCP | grep -w retrans

网络性能优化：

调整内核参数：

# 增加TCP缓冲区
echo 'net.ipv4.tcp_rmem = 4096 87380 16777216' >> /etc/sysctl.conf
echo 'net.ipv4.tcp_wmem = 4096 65536 16777216' >> /etc/sysctl.conf

网卡调优：
- 启用多队列(ethtool -L eth0 combined 8)
- 调整中断亲和性
协议优化：
- 使用TCP快速打开(net.ipv4.tcp_fastopen=3)
- 开启时间戳(net.ipv4.tcp_timestamps=1)

高级应用技巧

自动化监控系统搭建

cron配置示例：

# 每5分钟收集详细数据
*/5 * * * * /usr/lib/sysstat/sa1 1 1
# 每日生成综合报告
0 0 * * * /usr/lib/sysstat/sa2 -A
# 每周性能趋势分析
0 6 * * 1 /usr/bin/sar -A -f /var/log/sa/sa$(date +%d -d yesterday) > /var/log/sa/weekly_analysis.log
# 每月归档数据
0 2 1 * * tar czf /var/log/sa/archive_$(date +\%Y\%m).tar.gz /var/log/sa/sa[0-9]*

数据可视化方案

生成CSV数据：

sadf -d /var/log/sa/sa15 -- -u > cpu_usage.csv
sadf -d /var/log/sa/sa15 -- -r > memory_usage.csv

使用Python分析示例：

import pandas as pd
import matplotlib.pyplot as plt
# 读取CPU数据
df = pd.read_csv('cpu_usage.csv', parse_dates=['timestamp'])
# 绘制CPU使用率趋势
plt.figure(figsize=(12, 6))
df.plot(x='timestamp', y=['%user', '%system', '%iowait'], 
        title='CPU Usage Analysis', style=['-', '--', ':'])
plt.ylabel('Percentage (%)')
plt.grid(True)
plt.savefig('cpu_usage.png', dpi=300)

集成Grafana：
- 使用sadf将数据导入InfluxDB
- 配置Grafana数据源
- 创建丰富的监控仪表盘

性能基准测试

创建测试场景：

# 测试前记录基准
sar -A -o baseline.sar 1 60 &
# 执行压力测试
stress --cpu 4 --io 2 --vm 2 --vm-bytes 1G --timeout 60s
# 对比分析
sadf -d baseline.sar -- -u > baseline.csv
sadf -d /var/log/sa/sa$(date +%d) -- -u > current.csv

基准测试指标分析：

CPU密集型应用：
- 监控%user变化
- 检查CPU频率缩放(sar -m CPU -P ALL)
内存密集型应用：
- 跟踪kbmemfree和kbswpused
- 分析页错误率(sar -B)
I/O密集型应用：
- 监控await和%util
- 检查队列长度(sar -q)

常见问题解决方案

数据收集异常排查

# 检查服务状态
systemctl status sysstat
# 验证配置
grep -E '^ENABLED|^HISTORY' /etc/sysstat/sysstat
# 检查cron任务
crontab -l | grep sysstat
# 手动触发收集测试
/usr/lib/sysstat/sa1 1 1

常见问题处理：

无历史数据：
- 确认ENABLED="true"配置
- 检查/etc/cron.d/sysstat是否存在
数据不更新：
- 验证sysstat服务是否运行
- 检查磁盘空间(df -h /var/log)
权限问题：
- 确保/var/log/sa/目录可写
- 检查sa文件属主是否为root:sys

性能问题诊断流程

确认现象：

sar -q  # 系统负载
uptime  # 运行时间和平均负载

定位瓶颈：
- CPU：sar -u -P ALL
- 内存：sar -r -S
- 磁盘：sar -b -d
- 网络：sar -n DEV

关联分析：

# 结合进程监控
pidstat 1 5
top -c
# 深入分析
perf top   # CPU热点
iotop      # 磁盘I/O
iftop      # 网络流量

解决方案：
- 短期：调整资源分配或重启问题服务
- 长期：优化应用代码或架构升级

日志管理策略

自动化清理脚本示例：

#!/bin/bash
# 保留最近7天数据
find /var/log/sa/ -name "sa[0-9]*" -mtime +7 -delete
find /var/log/sysstat/ -name "sa[0-9]*" -mtime +7 -delete
# 压缩旧数据
find /var/log/sa/ -name "sa[0-9]*" -mtime +3 -exec gzip {} \;

日志轮转配置(/etc/logrotate.d/sysstat)：

/var/log/sa/* {
    weekly
    missingok
    rotate 12
    compress
    delaycompress
    notifempty
    nocreate
}

结论与最佳实践

sar命令作为Linux系统性能监控的瑞士军刀，其价值在于提供历史数据的回溯能力，这是大多数实时监控工具所不具备的，通过本文的系统性介绍，读者应该能够：

熟练使用sar进行多维度系统监控
建立性能基准并识别异常模式
构建自动化的性能监控体系

对于生产环境,建议将sar与以下工具集成，构建完整的监控解决方案：

时间序列数据库：InfluxDB