请求监控

请求监控是排查请求失败的主入口。仪表盘告诉你“出问题了”，请求监控用来查“是哪类请求、哪个账号、哪个模型或哪个调用方出了问题”。

账号处理已经拆到账号处理队列。这里先专注于请求事件本身。

可用条件

请求监控需要 Manager Server 提供采集能力，并且 CPA 用量发布已经开启。CPA Panel 模式或未绑定 Manager Server 时，用量类功能可能不可用。

如果页面提示请求监控未启用，请先到配置中心的 Manager Server 配置里启用请求监控。

页面视图

账号概览：先判断是不是某个账号集中失败。
API 密钥汇总：判断是不是某个调用方密钥造成异常流量或成本。
实时请求：查看单条请求的模型、状态码、延迟、Token 和失败摘要。
汇总卡片：查看总请求、失败数、成功率、延迟和 Token。
过滤器：按时间、提供商、模型、项目、账号、API Key、状态、失败类型、延迟和缓存命中缩小范围。

失败摘要会被脱敏。原始失败 body 只保存在本地 SQLite，不会通过普通 API 或 JSONL 导出暴露。

常用排查流程

先选时间范围。排查刚发生的问题时用较短范围，复盘趋势时再扩大。
看汇总卡片，确认失败是否集中在某个状态码或模型。
打开账号概览，查看是否只有少数账号异常。
打开 API Key 汇总，判断是否某个调用方造成异常流量。
在实时请求里点开单条记录，查看模型、提供商、账号、耗时、Token 和失败摘要。
如果失败指向认证或配额，再进入认证文件、配额管理或 Codex 账号巡检。

过滤器怎么用

状态：先区分成功、失败和异常状态码。
提供商和模型：判断是不是某个上游或模型别名配置错误。
账号和认证文件：定位问题账号，配合 auth_index 查看历史。
API Key：定位调用方，尤其适合排查成本突增。
项目、请求类型和 Trace ID：用于还原具体业务请求。
延迟和缓存状态：排查慢请求、缓存缺失或流式响应异常。

筛选结果可以作为下一步分析的入口。成本问题进入用量分析，认证问题进入账号处理队列。

监控为空

请求监控没有数据时，按这个顺序查：

客户端请求是否真的经过 CPA。
CPA 用量发布是否开启。
CPAMP 采集器是否运行。
CPA 用量队列保留时间是否足够。
是否有多个 Manager Server 同时消费同一个 CPA 队列。
RESP 模式是否直连 CPA :8317，而不是 HTTP 反向代理。

详见请求监控排障。

数据边界

请求监控只展示 CPAMP 已采集到的数据，队列过期后无法补齐。
多个 Manager Server 同时消费同一个 CPA 队列会造成数据缺失。
成本是根据模型价格估算的，不等同于提供商账单。
脱敏摘要适合排障，但不要把完整 Token、管理密钥或认证文件贴到问题反馈里。