SorryToPerson logo
返回
运维2026-04-15

运维面试题:监控与日志

总结运维监控、告警、日志收集与故障诊断的常见面试题。

运维面试题:监控与日志

1. 监控系统通常关注哪些指标?

  • 资源使用(CPU、内存、磁盘、网络)。
  • 应用可用性和请求延迟。
  • 错误率和重启次数。

2. 告警策略有哪些关键点?

  • 告警阈值设置合理,避免误报。
  • 分级告警与通知渠道明确。
  • 与运维和开发团队高效协同。

3. 常见日志收集架构是什么?

  • 本地日志写入磁盘。
  • 通过 agent 采集后转发到 ELK、Loki、Splunk 等平台。
  • 支持结构化日志与索引查询。

4. 如何排查生产故障?

  • error.log 与访问日志。
  • 核对监控仪表盘关键指标。
  • 结合最近变更和部署记录定位问题。

5. 什么是日志聚合?

  • 将分布式系统日志集中存储。
  • 便于查询、可视化和分析。
  • 支持关联请求追踪和异常定位。

6. 你会如何优化监控告警?

  • 合理设定报警规则。
  • 添加抑制和去重机制。
  • 定期清理失效告警规则和阈值。

7. 指标采集时需要注意什么?

  • 监控开销不应过高。
  • 关注正确的业务指标,而非过多无关指标。
  • 采集数据要支持历史分析。

8. 如何进行服务级别目标(SLO)设计?

  • 定义可用性、响应时间等指标。
  • 设置合理目标值。
  • 结合错误预算制定运维策略。
运维监控日志