Skip to content

请求监控

请求监控是排查请求失败的主入口。仪表盘告诉你“出问题了”,请求监控用来查“是哪类请求、哪个账号、哪个模型或哪个调用方出了问题”。

账号处理已经拆到 账号处理队列。这里先专注于请求事件本身。

可用条件

请求监控需要 Manager Server 提供采集能力,并且 CPA 用量发布已经开启。CPA Panel 模式或未绑定 Manager Server 时,用量类功能可能不可用。

如果页面提示请求监控未启用,请先到 配置中心 的 Manager Server 配置里启用请求监控。

页面视图

  • 账号概览:先判断是不是某个账号集中失败。
  • API 密钥汇总:判断是不是某个调用方密钥造成异常流量或成本。
  • 实时请求:查看单条请求的模型、状态码、延迟、Token 和失败摘要。
  • 汇总卡片:查看总请求、失败数、成功率、延迟和 Token。
  • 过滤器:按时间、提供商、模型、项目、账号、API Key、状态、失败类型、延迟和缓存命中缩小范围。

失败摘要会被脱敏。原始失败 body 只保存在本地 SQLite,不会通过普通 API 或 JSONL 导出暴露。

常用排查流程

  1. 先选时间范围。排查刚发生的问题时用较短范围,复盘趋势时再扩大。
  2. 看汇总卡片,确认失败是否集中在某个状态码或模型。
  3. 打开账号概览,查看是否只有少数账号异常。
  4. 打开 API Key 汇总,判断是否某个调用方造成异常流量。
  5. 在实时请求里点开单条记录,查看模型、提供商、账号、耗时、Token 和失败摘要。
  6. 如果失败指向认证或配额,再进入 认证文件配额管理Codex 账号巡检

过滤器怎么用

  • 状态:先区分成功、失败和异常状态码。
  • 提供商和模型:判断是不是某个上游或模型别名配置错误。
  • 账号和认证文件:定位问题账号,配合 auth_index 查看历史。
  • API Key:定位调用方,尤其适合排查成本突增。
  • 项目、请求类型和 Trace ID:用于还原具体业务请求。
  • 延迟和缓存状态:排查慢请求、缓存缺失或流式响应异常。

筛选结果可以作为下一步分析的入口。成本问题进入 用量分析,认证问题进入 账号处理队列

监控为空

请求监控没有数据时,按这个顺序查:

  1. 客户端请求是否真的经过 CPA。
  2. CPA 用量发布是否开启。
  3. CPAMP 采集器是否运行。
  4. CPA 用量队列保留时间是否足够。
  5. 是否有多个 Manager Server 同时消费同一个 CPA 队列。
  6. RESP 模式是否直连 CPA :8317,而不是 HTTP 反向代理。

详见 请求监控排障

数据边界

  • 请求监控只展示 CPAMP 已采集到的数据,队列过期后无法补齐。
  • 多个 Manager Server 同时消费同一个 CPA 队列会造成数据缺失。
  • 成本是根据模型价格估算的,不等同于提供商账单。
  • 脱敏摘要适合排障,但不要把完整 Token、管理密钥或认证文件贴到问题反馈里。

Released under the MIT License.