12 Operator Observability
范围:
- tracing
- metrics
- structured logging
- 错误分级
- 告警与回放
- 运营诊断能力
O1 telemetry-conventions
- [ ] 统一 tracing、metrics、logging 的命名约定
- [ ] 为 HTTP、WebSocket、AI、routing、voice 链路定义公共标签
- [ ] 明确 request id、session id、tenant id、trace id 的透传规则
- [ ] 统一结构化日志字段规范
验收:
- 不同模块输出的观测数据可以关联起来,而不是各写各的
O2 core-service-level-indicators
- [ ] 定义 API、会话、工单、路由、AI、语音的关键指标
- [ ] 明确成功率、延迟、错误率、积压量等 SLI
- [ ] 为后台任务和事件消费定义吞吐与失败指标
- [ ] 为 SDK 与服务端交互补最小体验指标
验收:
- 系统核心健康度可被量化,而不是靠日志猜测
O3 error-taxonomy-and-diagnostics
- [ ] 定义错误分级与错误类别
- [ ] 区分用户错误、依赖错误、配置错误、系统错误
- [ ] 为关键模块补统一错误映射与日志策略
- [ ] 为常见故障建立排查手册
验收:
- 出问题时可以快速知道“哪类错误、在哪里、怎么查”
O4 async-reliability-observability
- [ ] 为 event bus 消费、worker、索引任务、AI fallback 增加幂等观测
- [ ] 记录重试次数、死信、跳过、回退路径
- [ ] 为长耗时任务增加阶段性进度与结果摘要
- [ ] 为异步任务建立最小 replay / rerun 接口预留
验收:
- 异步链路从“黑盒”变为可观察、可重试、可解释
O5 dashboards-alerts-and-replay
- [ ] 盘点需要 dashboard 的核心视角
- [ ] 定义关键告警触发条件与阈值策略
- [ ] 预留会话、AI 请求、路由决策的 replay 边界
- [ ] 为运营排障定义最小诊断面板需求
验收:
- 运营和研发都具备足够的现场信息,不必直接翻原始日志救火