SorryToPerson logo
返回
Kubernetes2026-04-15·8 分钟

Kubernetes 监控与日志

介绍 Kubernetes 集群和应用监控、日志收集与常见工具组合。

Kubernetes 监控与日志

1. 集群监控目标

  • Node 资源使用
  • Pod 运行状态
  • Deployment 副本与可用性
  • 关键指标如 CPU、内存、网络和磁盘

2. 常见监控组件

  • Metrics Server:提供资源指标用于 HPA。
  • Prometheus:采集指标并存储时间序列数据。
  • Grafana:可视化监控数据。

3. 日志收集方案

  • Elasticsearch + Fluentd + Kibana
  • Loki + Promtail + Grafana
  • EFK/PLG 组合

4. Pod 日志采集

  • 读取容器标准输出和标准错误。
  • 通过 DaemonSet 在每个 Node 上收集日志。

5. 应用探针与事件

  • livenessProbereadinessProbe 提供健康状态。
  • 观察 Pod 事件可发现调度、拉镜像、启动失败等问题。

6. 监控告警

  • 基于 Prometheus Alertmanager 配置告警规则。
  • 常见告警:Pod 重启、CPU 内存高、水印阈值、调度失败。

7. 可观察性实践

  • 为应用暴露自定义指标。
  • 使用 kubectl top 快速查看资源。
  • 通过 Dashboard、Lens 或其它 UI 查看集群状态。

8. 排查建议

  • 先从 kubectl describe pod 看事件。
  • 使用 kubectl logs 查看容器输出。
  • 根据 metrics 判断是否资源瓶颈。
Kubernetes监控日志