请求监控
请求监控是排查请求失败的主入口。仪表盘告诉你“出问题了”,请求监控用来查“是哪类请求、哪个账号、哪个模型或哪个调用方出了问题”。
账号处理已经拆到 账号处理队列。这里先专注于请求事件本身。
可用条件
请求监控需要 Manager Server 提供采集能力,并且 CPA 用量发布已经开启。CPA Panel 模式或未绑定 Manager Server 时,用量类功能可能不可用。
如果页面提示请求监控未启用,请先到 配置中心 的 Manager Server 配置里启用请求监控。
页面视图
- 账号概览:先判断是不是某个账号集中失败。
- API 密钥汇总:判断是不是某个调用方密钥造成异常流量或成本。
- 实时请求:查看单条请求的模型、状态码、延迟、Token 和失败摘要。
- 汇总卡片:查看总请求、失败数、成功率、延迟和 Token。
- 过滤器:按时间、提供商、模型、项目、账号、API Key、状态、失败类型、延迟和缓存命中缩小范围。
失败摘要会被脱敏。原始失败 body 只保存在本地 SQLite,不会通过普通 API 或 JSONL 导出暴露。
常用排查流程
- 先选时间范围。排查刚发生的问题时用较短范围,复盘趋势时再扩大。
- 看汇总卡片,确认失败是否集中在某个状态码或模型。
- 打开账号概览,查看是否只有少数账号异常。
- 打开 API Key 汇总,判断是否某个调用方造成异常流量。
- 在实时请求里点开单条记录,查看模型、提供商、账号、耗时、Token 和失败摘要。
- 如果失败指向认证或配额,再进入 认证文件、配额管理 或 Codex 账号巡检。
过滤器怎么用
- 状态:先区分成功、失败和异常状态码。
- 提供商和模型:判断是不是某个上游或模型别名配置错误。
- 账号和认证文件:定位问题账号,配合
auth_index查看历史。 - API Key:定位调用方,尤其适合排查成本突增。
- 项目、请求类型和 Trace ID:用于还原具体业务请求。
- 延迟和缓存状态:排查慢请求、缓存缺失或流式响应异常。
筛选结果可以作为下一步分析的入口。成本问题进入 用量分析,认证问题进入 账号处理队列。
监控为空
请求监控没有数据时,按这个顺序查:
- 客户端请求是否真的经过 CPA。
- CPA 用量发布是否开启。
- CPAMP 采集器是否运行。
- CPA 用量队列保留时间是否足够。
- 是否有多个 Manager Server 同时消费同一个 CPA 队列。
- RESP 模式是否直连 CPA
:8317,而不是 HTTP 反向代理。
详见 请求监控排障。
数据边界
- 请求监控只展示 CPAMP 已采集到的数据,队列过期后无法补齐。
- 多个 Manager Server 同时消费同一个 CPA 队列会造成数据缺失。
- 成本是根据模型价格估算的,不等同于提供商账单。
- 脱敏摘要适合排障,但不要把完整 Token、管理密钥或认证文件贴到问题反馈里。