运维2026-04-15
运维面试题:日志与告警
总结运维日志收集、告警策略、故障定位和常见面试题。
运维面试题:日志与告警
1. 日志收集常见架构是什么?
- 本地写日志到文件。
- Agent 采集后发送至集中平台。
- 使用 ELK、Loki、Splunk 等方案。
2. 告警系统关键要素有哪些?
- 告警规则。
- 通知渠道。
- 告警抑制和分级。
3. 什么是指标与事件?
- 指标(Metrics)是数值时间序列。
- 事件(Events)是离散日志或操作记录。
- 两者结合有助于快速定位问题。
4. 如何避免告警疲劳?
- 设定合理阈值。
- 监测抑制重复告警。
- 优先处理高严重性问题。
5. 调试线上故障时日志与监控如何配合?
- 先看监控指标定位受影响区域。
- 再查日志详细错误信息。
- 结合请求 ID 或 trace 链路关联问题。
6. 日志格式化有什么好处?
- 结构化日志便于搜索和分析。
- 统一字段便于多系统聚合。
7. 你如何设置关键业务指标?
- 关注响应时间、错误率、用户请求量。
- 结合业务 SLA 设计 SLO。
8. 告警恢复后如何总结?
- 记录根因分析。
- 更新文档和流程。
- 优化监控规则,避免同类问题重复发生。
运维日志告警