Kubernetes2026-04-15·8 分钟

Kubernetes 监控与日志

介绍 Kubernetes 集群和应用监控、日志收集与常见工具组合。

Kubernetes 监控与日志

1. 集群监控目标

Node 资源使用
Pod 运行状态
Deployment 副本与可用性
关键指标如 CPU、内存、网络和磁盘

2. 常见监控组件

Metrics Server：提供资源指标用于 HPA。
Prometheus：采集指标并存储时间序列数据。
Grafana：可视化监控数据。

3. 日志收集方案

Elasticsearch + Fluentd + Kibana
Loki + Promtail + Grafana
EFK/PLG 组合

4. Pod 日志采集

读取容器标准输出和标准错误。
通过 DaemonSet 在每个 Node 上收集日志。

5. 应用探针与事件

livenessProbe 和 readinessProbe 提供健康状态。
观察 Pod 事件可发现调度、拉镜像、启动失败等问题。

6. 监控告警

基于 Prometheus Alertmanager 配置告警规则。
常见告警：Pod 重启、CPU 内存高、水印阈值、调度失败。

7. 可观察性实践

为应用暴露自定义指标。
使用 kubectl top 快速查看资源。
通过 Dashboard、Lens 或其它 UI 查看集群状态。

8. 排查建议

先从 kubectl describe pod 看事件。
使用 kubectl logs 查看容器输出。
根据 metrics 判断是否资源瓶颈。

Kubernetes监控日志