运维2026-04-15
运维面试题:监控与日志
总结运维监控、告警、日志收集与故障诊断的常见面试题。
运维面试题:监控与日志
1. 监控系统通常关注哪些指标?
- 资源使用(CPU、内存、磁盘、网络)。
- 应用可用性和请求延迟。
- 错误率和重启次数。
2. 告警策略有哪些关键点?
- 告警阈值设置合理,避免误报。
- 分级告警与通知渠道明确。
- 与运维和开发团队高效协同。
3. 常见日志收集架构是什么?
- 本地日志写入磁盘。
- 通过 agent 采集后转发到 ELK、Loki、Splunk 等平台。
- 支持结构化日志与索引查询。
4. 如何排查生产故障?
- 查
error.log与访问日志。 - 核对监控仪表盘关键指标。
- 结合最近变更和部署记录定位问题。
5. 什么是日志聚合?
- 将分布式系统日志集中存储。
- 便于查询、可视化和分析。
- 支持关联请求追踪和异常定位。
6. 你会如何优化监控告警?
- 合理设定报警规则。
- 添加抑制和去重机制。
- 定期清理失效告警规则和阈值。
7. 指标采集时需要注意什么?
- 监控开销不应过高。
- 关注正确的业务指标,而非过多无关指标。
- 采集数据要支持历史分析。
8. 如何进行服务级别目标(SLO)设计?
- 定义可用性、响应时间等指标。
- 设置合理目标值。
- 结合错误预算制定运维策略。
运维监控日志