基础监控指标体系
监控的目的不是“图表好看”,而是提前发现你快出事了。
最小指标集
graph TD
A[CPU] --> E[机器健康]
B[内存] --> E
C[磁盘] --> E
D[网络] --> E
F[HTTP 5xx] --> G[应用健康]
先监控什么
| 类别 | 指标 |
|---|---|
| 机器层 | CPU、内存、磁盘、负载 |
| 网络层 | 带宽、连接数、丢包 |
| 应用层 | 响应时间、5xx、健康检查 |
一个简单的巡检脚本
echo "cpu load: $(uptime)"
echo "disk:"
df -h
echo "memory:"
free -m
本节执行清单
- [ ] 列出你的服务最重要的 5 个指标
- [ ] 区分机器指标和应用指标
- [ ] 确定哪些指标需要历史趋势
下一节:告警设计与故障发现——监控之后,要解决“什么时候打扰人”。