Skill Fallback Routes：AI 工作流失败时，下一条安全路应该提前写好

Axon AI 2026-05-31 AI 数字员工 Skills 技能

#Skills#Workflows#Fallback#Axon

Skill Fallback Routes：AI 工作流失败时，下一条安全路应该提前写好

摘要：本文说明 Skill Fallback Routes 如何让 Axon 链式 Skills 在失败或低置信度时选择安全恢复路径，而不是随机重试。

Skill Fallback Routes 是链式 AI 工作流的失败恢复路径：当某个 Skill 失败、超时或返回低置信度输出时，Agent 应该知道是重试、调用备用 Skill、补 Source Data、降级产物，还是停下来交给人工。很多团队每天把重复、手动、容易出错的工作交给 AI 数字员工，但只设计成功路径。真实办公自动化里，文件会缺页，连接器会超时，表格字段会变，模型输出会不确定。没有 Skill Fallback Routes，所谓稳定 workflow 很容易在失败后变成随机重跑。

Anthropic 在 Building Effective Agents 中强调 agentic systems 需要清晰模式、检查点和反馈；NIST 的 AI Risk Management Framework 也要求 AI 系统可管理。对 Axon 来说，fallback route 就是把“失败后怎么办”从临场判断变成 workflow 设计的一部分。

成功路径决定 Agent 能不能跑通；fallback route 决定 AI 数字员工能不能长期稳定运行。

五种 fallback 不要混在一起

失败后第一反应通常是“再跑一次”。但不同失败需要不同路线：

fallback route	适合场景	不适合场景
retry	网络抖动、临时限流、短暂超时	Source Data 明显错误
alternate Skill	主 Skill 不可用或格式不兼容	业务规则本身不清
ask for Source Data	输入缺失、版本过旧、字段不全	模型推理失败
downgrade artifact	无法生成完整报告但可生成摘要	高风险外发文件
human review	低置信度、高风险动作、证据冲突	可自动修复的小格式问题

这和 Workflow Version Pinning 有直接关系。版本锁定让你知道哪条 Skill 链在跑；fallback route 让你知道它跑不下去时该走哪条安全路。

一份 fallback manifest

skillFallbackRoutes:
  workflow: "supplier quote review"
  skill: "extract quote terms"
  failureSignals:
    - "missing required field"
    - "confidence below medium"
    - "timeout over 30s"
  routes:
    retry:
      max: 1
      useWhen: "timeout or transient connector error"
    alternateSkill:
      skill: "extract quote terms from spreadsheet"
      useWhen: "PDF extraction fails but spreadsheet exists"
    askForSourceData:
      useWhen: "price, payment term, or delivery date missing"
    downgradeArtifact:
      artifact: "quote-review-needs-input.md"
      useWhen: "analysis incomplete but source gaps are clear"
    humanReview:
      owner: "sales operations"
      useWhen: "margin risk and payment risk conflict"

这份 manifest 的重点是先定义失败信号，再定义恢复路线。否则 Agent 只能把所有失败都当成“再试一次”。

fallback 要保护证据链

一个 workflow 失败并不可怕；可怕的是失败后证据被覆盖。fallback route 应该保留：

原始 Source Data；
失败 Skill 的输入和输出；
中间 artifact；
选择 fallback 的原因；
人工接管 owner；
是否消耗 retryBudget。

这和 Workspace-Scoped AI Workflows 很配。失败恢复不应该覆盖 input，也不应该把半成品伪装成最终产物。

什么时候必须停下来

输出 schema 破坏下游。
如果 Skill 输出字段缺失，会让下游 Agent 得到假稳定。此时应回到 Skill output schema，而不是继续。

外部动作即将发生。
涉及发送、发布、删除、更新系统记录时，fallback 不应自动越过 Connector-Gated AI Workflows 和 Trust Mode。

证据冲突。
当两个 Source Data 指向不同结论，Agent 可以整理冲突，但不应假装做出确定决策。

恢复路线 review

步骤 1：列出每个关键 Skill 的失败信号。步骤 2：为每个信号指定最多一条自动 fallback 和一条人工接管路径。步骤 3：确认 fallback 后的 artifact 名称不会和正式产物混淆。

这不是悲观设计，而是让自动化在不完美输入下仍然可控。

fallback 问题

Q1：Skill Fallback Routes 会不会让 workflow 变复杂？
会增加设计工作，但只加在关键 Skill 上即可。越是高频和高风险 workflow，越需要提前写恢复路线。

Q2：为什么不让模型自己决定 fallback？
模型可以建议，但不能独自决定风险边界。retry、备用 Skill、降级产物和人工接管都应由 workflow 规则约束。

Q3：fallback 后的产物可以直接验收吗？
通常不应该。降级产物要明确标注缺口，人工 owner 需要知道它不是完整报告。

先给一个关键 Skill 写恢复路

选择一个 Axon workflow 中最容易失败的 Skill，例如 PDF 提取、网页读取、连接器动作或表格解析。写出 failureSignals、retry、alternateSkill、askForSourceData、downgradeArtifact 和 humanReview。了解更多版本锁定、输出 schema 和文件边界后，再把 Skill Fallback Routes 变成链式 Skills 的标准组成部分。