Kubernetes2026-04-15·8 分钟
Kubernetes 监控与日志
介绍 Kubernetes 集群和应用监控、日志收集与常见工具组合。
Kubernetes 监控与日志
1. 集群监控目标
- Node 资源使用
- Pod 运行状态
- Deployment 副本与可用性
- 关键指标如 CPU、内存、网络和磁盘
2. 常见监控组件
- Metrics Server:提供资源指标用于 HPA。
- Prometheus:采集指标并存储时间序列数据。
- Grafana:可视化监控数据。
3. 日志收集方案
- Elasticsearch + Fluentd + Kibana
- Loki + Promtail + Grafana
- EFK/PLG 组合
4. Pod 日志采集
- 读取容器标准输出和标准错误。
- 通过 DaemonSet 在每个 Node 上收集日志。
5. 应用探针与事件
livenessProbe和readinessProbe提供健康状态。- 观察 Pod 事件可发现调度、拉镜像、启动失败等问题。
6. 监控告警
- 基于 Prometheus Alertmanager 配置告警规则。
- 常见告警:Pod 重启、CPU 内存高、水印阈值、调度失败。
7. 可观察性实践
- 为应用暴露自定义指标。
- 使用
kubectl top快速查看资源。 - 通过 Dashboard、Lens 或其它 UI 查看集群状态。
8. 排查建议
- 先从
kubectl describe pod看事件。 - 使用
kubectl logs查看容器输出。 - 根据 metrics 判断是否资源瓶颈。
Kubernetes监控日志