主要监控4个指标:cpu mem io load average(负载)
1. cpu
使用sar -u 或者 sar -u 5 5 命令查看CPU:(需要安装yum install sysstat)
user
system
如果iowait持续的高,说明磁盘io存在瓶颈。解决方式:1.更换更好的磁盘 2.程序处理不当,需排查
2. load average(负载)
使用top命令查看:
一段时间内,cpu正在处理 + 等待cpu处理 的进程数之和
1分钟、5分钟、10分钟
一般关注5分钟、10分钟
理想的laod average < cpu个数 * 核数 * 0.7
cpu个数:grep 'physical id ' /proc/cpuinfo | sort -u
核数:grep 'core id ' /proc/cpuinfo | sort -u | wc -l
按住键盘上的数字1,可以看到cpu0、cpu1、cpu2的资源占用(0,1,2表示有3个cpu)
几个cpu一般来说比较均衡,cpu0相当于是带头大哥,如果它占的很高,这是个问题,需要解决
3. mem
linux潜在规则:尽可能的使用内存来提高io的效率
free
used
cache
buffer
总的物理内存=used+free
实际可用的物理内存=free+buffer+cache
实际使用的物理内存=used-buffer-cache
%memused:可以直接看出用了多少,还剩多少
如果剩余的内存不多,那么需要加内存,或者程序问题(比如内存泄漏等)
4. io
使用 sar -d 或者 sar -d 5 5 命令查看io
avgqu-sz:io队列的长度,队列越长,io压力越大
await: io操作的等待时间 ms -- 了解?
svctm: 被服务的时间 越接近await,等待的时间越少,io效果越好 -- 了解?
util: io繁忙程度 持续>80%, 需要排查是因为什么繁忙