SorryToPerson logo
返回
运维2026-04-15

运维面试题:日志与告警

总结运维日志收集、告警策略、故障定位和常见面试题。

运维面试题:日志与告警

1. 日志收集常见架构是什么?

  • 本地写日志到文件。
  • Agent 采集后发送至集中平台。
  • 使用 ELK、Loki、Splunk 等方案。

2. 告警系统关键要素有哪些?

  • 告警规则。
  • 通知渠道。
  • 告警抑制和分级。

3. 什么是指标与事件?

  • 指标(Metrics)是数值时间序列。
  • 事件(Events)是离散日志或操作记录。
  • 两者结合有助于快速定位问题。

4. 如何避免告警疲劳?

  • 设定合理阈值。
  • 监测抑制重复告警。
  • 优先处理高严重性问题。

5. 调试线上故障时日志与监控如何配合?

  • 先看监控指标定位受影响区域。
  • 再查日志详细错误信息。
  • 结合请求 ID 或 trace 链路关联问题。

6. 日志格式化有什么好处?

  • 结构化日志便于搜索和分析。
  • 统一字段便于多系统聚合。

7. 你如何设置关键业务指标?

  • 关注响应时间、错误率、用户请求量。
  • 结合业务 SLA 设计 SLO。

8. 告警恢复后如何总结?

  • 记录根因分析。
  • 更新文档和流程。
  • 优化监控规则,避免同类问题重复发生。
运维日志告警