为什么 Agent 失败不能笼统归因，必须按节点拆开

把 Agent 失败拆成输入 / 工具 / 推理 / 输出四类节点，先定位再改进。

Module A · 第 2 篇约 6 分钟

立靶：不做失败分类，你只会得到一句「它不太行」

先看一个真实场景。某团队上线一个语音对话 Agent 后，运营反馈「经常答非所问」。PM 把这句话原样转给工程，工程查了三天，结论是「模型能力有限，等下个版本」。两周后问题照旧。

问题不在模型，在归因。「答非所问」是一个结果，不是一个节点。同样一句「答非所问」，背后可能是：

这四种「答非所问」的修法完全不同：第一种要做降噪和复述确认，第二种要加重试和降级，第三种要改 prompt 或加校验，第四种要做格式约束。如果 PM 只会说「它不太行」，团队就只能在这四个方向里乱撞。

不做失败分类的三个典型后果：

PM 在失败这件事上的核心价值，不是修 bug，而是把「一团失败」切成可定位、可统计、可分配的节点。

一次 Agent 任务，本质是一条流水线：理解输入 → 调用工具 → 推理决策 → 产出输出。失败只可能发生在这四个节点之一（或回滚这个正交维度上）。按节点切分，天然满足 MECE——不重不漏。

四类之外还有一个正交维度·回滚：失败发生后是否产生了副作用、要不要清理。它不属于「在哪个节点失败」，而是「失败后留下了什么烂摊子」，所以单独拎出来，不能混进上面四类的占比统计里。这一点对应错误恢复策略里「4+1」的处理——主路径回答如何完成，回滚回答如何清理副作用。

几个划分上的关键判断：

把上面框架落到一个脱敏的真实案例——一个面向电话场景的语音对话 Agent。电话场景的物理信道不可控（噪音、网络抖动、口音、中老年用户语速慢），A 类输入理解失败是这里最高频的失败节点。

团队没有把「听不清」当成一个笼统问题，而是先在 A 类内部再做根因二分：

根因	特征	处理方向
环境噪音	空转写、语气词占比高、识别字数极少	渐进劝离 / 转人工
用户语速慢	思考停顿长、反复确认	参数自适应 / 不打断

关键认知是「人特征稳定、环境信号动态」，所以先识别人、再判断环境。落地上做了三件事：

注意这里同时调用了 B 类的处理手段（供应商热备 = 工具层降级容错）。这正说明分类的价值：一旦把失败定位到具体节点，每个节点都有自己成熟的处理套路可以套，而不是面对「它不太行」束手无策。

为了不误伤，还加了三层防误报兜底——确认词白名单、合法拖长音豁免、严格计分阈值。这对应一条通用规律：失败检测本身也会失败（误报），埋点时必须把误报率一起监控。

埋点捕获清单：

定位的纪律——下判断前先答四问（借用错误恢复的诊断 SOP）：

Q1 错误类型？  瞬态（网络/超时/限流） vs 永久（输入质量/边界外）
Q2 副作用？    无 vs 已写未交付 vs 已交付给用户
Q3 可恢复？    可续接 vs 必须重做 vs 不可恢复
Q4 层别？      预防层（设计漏洞） vs 恢复层（运行时）

没答这四问之前不下任何判断。这能挡掉最常见的两个错误：把永久错误当瞬态去无脑重试，以及把设计漏洞丢到运行时去兜底。

统计与排期：

失败不是一团，是一条流水线上的四个节点。PM 的功夫不在修 bug，而在能不能一眼说出「它死在了第几个节点」——输入听错了、工具没回、模型想歪了、还是输出包坏了。分不清节点，所有改进都是赌博。