Skill Fallback Routes:AI 工作流失败时,下一条安全路应该提前写好

Skill Fallback Routes 是链式 AI 工作流的失败恢复路径:当某个 Skill 失败、超时或返回低置信度输出时,Agent 应该知道是重试、调用备用 Skill、补 Source Data、降级产物,还是停下来交给人工。很多团队每天把重复、手动、容易出错的工作交给 AI 数字员工,但只设计成功路径。真实办公自动化里,文件会缺页,连接器会超时,表格字段会变,模型输出会不确定。没有 Skill Fallback Routes,所谓稳定 workflow 很容易在失败后变成随机重跑。
Anthropic 在 Building Effective Agents 中强调 agentic systems 需要清晰模式、检查点和反馈;NIST 的 AI Risk Management Framework 也要求 AI 系统可管理。对 Axon 来说,fallback route 就是把“失败后怎么办”从临场判断变成 workflow 设计的一部分。
成功路径决定 Agent 能不能跑通;fallback route 决定 AI 数字员工能不能长期稳定运行。
五种 fallback 不要混在一起
失败后第一反应通常是“再跑一次”。但不同失败需要不同路线:
| fallback route | 适合场景 | 不适合场景 |
|---|---|---|
| retry | 网络抖动、临时限流、短暂超时 | Source Data 明显错误 |
| alternate Skill | 主 Skill 不可用或格式不兼容 | 业务规则本身不清 |
| ask for Source Data | 输入缺失、版本过旧、字段不全 | 模型推理失败 |
| downgrade artifact | 无法生成完整报告但可生成摘要 | 高风险外发文件 |
| human review | 低置信度、高风险动作、证据冲突 | 可自动修复的小格式问题 |
这和 Workflow Version Pinning 有直接关系。版本锁定让你知道哪条 Skill 链在跑;fallback route 让你知道它跑不下去时该走哪条安全路。
一份 fallback manifest
skillFallbackRoutes:
workflow: "supplier quote review"
skill: "extract quote terms"
failureSignals:
- "missing required field"
- "confidence below medium"
- "timeout over 30s"
routes:
retry:
max: 1
useWhen: "timeout or transient connector error"
alternateSkill:
skill: "extract quote terms from spreadsheet"
useWhen: "PDF extraction fails but spreadsheet exists"
askForSourceData:
useWhen: "price, payment term, or delivery date missing"
downgradeArtifact:
artifact: "quote-review-needs-input.md"
useWhen: "analysis incomplete but source gaps are clear"
humanReview:
owner: "sales operations"
useWhen: "margin risk and payment risk conflict"
这份 manifest 的重点是先定义失败信号,再定义恢复路线。否则 Agent 只能把所有失败都当成“再试一次”。
fallback 要保护证据链
一个 workflow 失败并不可怕;可怕的是失败后证据被覆盖。fallback route 应该保留:
- 原始 Source Data;
- 失败 Skill 的输入和输出;
- 中间 artifact;
- 选择 fallback 的原因;
- 人工接管 owner;
- 是否消耗 retryBudget。
这和 Workspace-Scoped AI Workflows 很配。失败恢复不应该覆盖 input,也不应该把半成品伪装成最终产物。
什么时候必须停下来
输出 schema 破坏下游。
如果 Skill 输出字段缺失,会让下游 Agent 得到假稳定。此时应回到 Skill output schema,而不是继续。
外部动作即将发生。
涉及发送、发布、删除、更新系统记录时,fallback 不应自动越过 Connector-Gated AI Workflows 和 Trust Mode。
证据冲突。
当两个 Source Data 指向不同结论,Agent 可以整理冲突,但不应假装做出确定决策。
恢复路线 review
步骤 1:列出每个关键 Skill 的失败信号。步骤 2:为每个信号指定最多一条自动 fallback 和一条人工接管路径。步骤 3:确认 fallback 后的 artifact 名称不会和正式产物混淆。
这不是悲观设计,而是让自动化在不完美输入下仍然可控。
fallback 问题
Q1:Skill Fallback Routes 会不会让 workflow 变复杂?
会增加设计工作,但只加在关键 Skill 上即可。越是高频和高风险 workflow,越需要提前写恢复路线。
Q2:为什么不让模型自己决定 fallback?
模型可以建议,但不能独自决定风险边界。retry、备用 Skill、降级产物和人工接管都应由 workflow 规则约束。
Q3:fallback 后的产物可以直接验收吗?
通常不应该。降级产物要明确标注缺口,人工 owner 需要知道它不是完整报告。
先给一个关键 Skill 写恢复路
选择一个 Axon workflow 中最容易失败的 Skill,例如 PDF 提取、网页读取、连接器动作或表格解析。写出 failureSignals、retry、alternateSkill、askForSourceData、downgradeArtifact 和 humanReview。了解更多版本锁定、输出 schema 和文件边界后,再把 Skill Fallback Routes 变成链式 Skills 的标准组成部分。