Servify DocsServify Docs
首页
架构
实施计划
  • WeKnora 集成
  • CI / Runner
  • 版本发布
  • 测试金字塔
  • Mermaid 兼容性
GitHub
首页
架构
实施计划
  • WeKnora 集成
  • CI / Runner
  • 版本发布
  • 测试金字塔
  • Mermaid 兼容性
GitHub
  • 实施计划

    • Servify Implementation Backlogs
    • 01 Platform And Runtime
    • 02 AI And Knowledge
    • 03 Business Modules
    • 04 SDK And Channel Adapters
    • 05 Engineering Hardening
    • 06 Voice And Protocol Expansion
    • 07 SDK Multi Surface
    • 08 AI Provider Expansion

12 Operator Observability

范围:

  • tracing
  • metrics
  • structured logging
  • 错误分级
  • 告警与回放
  • 运营诊断能力

O1 telemetry-conventions

  • [ ] 统一 tracing、metrics、logging 的命名约定
  • [ ] 为 HTTP、WebSocket、AI、routing、voice 链路定义公共标签
  • [ ] 明确 request id、session id、tenant id、trace id 的透传规则
  • [ ] 统一结构化日志字段规范

验收:

  • 不同模块输出的观测数据可以关联起来,而不是各写各的

O2 core-service-level-indicators

  • [ ] 定义 API、会话、工单、路由、AI、语音的关键指标
  • [ ] 明确成功率、延迟、错误率、积压量等 SLI
  • [ ] 为后台任务和事件消费定义吞吐与失败指标
  • [ ] 为 SDK 与服务端交互补最小体验指标

验收:

  • 系统核心健康度可被量化,而不是靠日志猜测

O3 error-taxonomy-and-diagnostics

  • [ ] 定义错误分级与错误类别
  • [ ] 区分用户错误、依赖错误、配置错误、系统错误
  • [ ] 为关键模块补统一错误映射与日志策略
  • [ ] 为常见故障建立排查手册

验收:

  • 出问题时可以快速知道“哪类错误、在哪里、怎么查”

O4 async-reliability-observability

  • [ ] 为 event bus 消费、worker、索引任务、AI fallback 增加幂等观测
  • [ ] 记录重试次数、死信、跳过、回退路径
  • [ ] 为长耗时任务增加阶段性进度与结果摘要
  • [ ] 为异步任务建立最小 replay / rerun 接口预留

验收:

  • 异步链路从“黑盒”变为可观察、可重试、可解释

O5 dashboards-alerts-and-replay

  • [ ] 盘点需要 dashboard 的核心视角
  • [ ] 定义关键告警触发条件与阈值策略
  • [ ] 预留会话、AI 请求、路由决策的 replay 边界
  • [ ] 为运营排障定义最小诊断面板需求

验收:

  • 运营和研发都具备足够的现场信息,不必直接翻原始日志救火
Edit this page
最近更新: 2026/3/22 16:20
Contributors: cuihairu