Skill Fallback Routes:AI 工作流失败时,下一条安全路应该提前写好

Axon AI 2026-05-31 AI 数字员工 Skills 技能
#Skills#Workflows#Fallback#Axon
Skill Fallback Routes:AI 工作流失败时,下一条安全路应该提前写好
摘要:本文说明 Skill Fallback Routes 如何让 Axon 链式 Skills 在失败或低置信度时选择安全恢复路径,而不是随机重试。

Skill Fallback Routes 是链式 AI 工作流的失败恢复路径:当某个 Skill 失败、超时或返回低置信度输出时,Agent 应该知道是重试、调用备用 Skill、补 Source Data、降级产物,还是停下来交给人工。很多团队每天把重复、手动、容易出错的工作交给 AI 数字员工,但只设计成功路径。真实办公自动化里,文件会缺页,连接器会超时,表格字段会变,模型输出会不确定。没有 Skill Fallback Routes,所谓稳定 workflow 很容易在失败后变成随机重跑。

Anthropic 在 Building Effective Agents 中强调 agentic systems 需要清晰模式、检查点和反馈;NIST 的 AI Risk Management Framework 也要求 AI 系统可管理。对 Axon 来说,fallback route 就是把“失败后怎么办”从临场判断变成 workflow 设计的一部分。

成功路径决定 Agent 能不能跑通;fallback route 决定 AI 数字员工能不能长期稳定运行。

五种 fallback 不要混在一起

失败后第一反应通常是“再跑一次”。但不同失败需要不同路线:

fallback route 适合场景 不适合场景
retry 网络抖动、临时限流、短暂超时 Source Data 明显错误
alternate Skill 主 Skill 不可用或格式不兼容 业务规则本身不清
ask for Source Data 输入缺失、版本过旧、字段不全 模型推理失败
downgrade artifact 无法生成完整报告但可生成摘要 高风险外发文件
human review 低置信度、高风险动作、证据冲突 可自动修复的小格式问题

这和 Workflow Version Pinning 有直接关系。版本锁定让你知道哪条 Skill 链在跑;fallback route 让你知道它跑不下去时该走哪条安全路。

一份 fallback manifest

skillFallbackRoutes:
  workflow: "supplier quote review"
  skill: "extract quote terms"
  failureSignals:
    - "missing required field"
    - "confidence below medium"
    - "timeout over 30s"
  routes:
    retry:
      max: 1
      useWhen: "timeout or transient connector error"
    alternateSkill:
      skill: "extract quote terms from spreadsheet"
      useWhen: "PDF extraction fails but spreadsheet exists"
    askForSourceData:
      useWhen: "price, payment term, or delivery date missing"
    downgradeArtifact:
      artifact: "quote-review-needs-input.md"
      useWhen: "analysis incomplete but source gaps are clear"
    humanReview:
      owner: "sales operations"
      useWhen: "margin risk and payment risk conflict"

这份 manifest 的重点是先定义失败信号,再定义恢复路线。否则 Agent 只能把所有失败都当成“再试一次”。

fallback 要保护证据链

一个 workflow 失败并不可怕;可怕的是失败后证据被覆盖。fallback route 应该保留:

  • 原始 Source Data;
  • 失败 Skill 的输入和输出;
  • 中间 artifact;
  • 选择 fallback 的原因;
  • 人工接管 owner;
  • 是否消耗 retryBudget。

这和 Workspace-Scoped AI Workflows 很配。失败恢复不应该覆盖 input,也不应该把半成品伪装成最终产物。

什么时候必须停下来

输出 schema 破坏下游。
如果 Skill 输出字段缺失,会让下游 Agent 得到假稳定。此时应回到 Skill output schema,而不是继续。

外部动作即将发生。
涉及发送、发布、删除、更新系统记录时,fallback 不应自动越过 Connector-Gated AI Workflows 和 Trust Mode。

证据冲突。
当两个 Source Data 指向不同结论,Agent 可以整理冲突,但不应假装做出确定决策。

恢复路线 review

步骤 1:列出每个关键 Skill 的失败信号。步骤 2:为每个信号指定最多一条自动 fallback 和一条人工接管路径。步骤 3:确认 fallback 后的 artifact 名称不会和正式产物混淆。

这不是悲观设计,而是让自动化在不完美输入下仍然可控。

fallback 问题

Q1:Skill Fallback Routes 会不会让 workflow 变复杂?
会增加设计工作,但只加在关键 Skill 上即可。越是高频和高风险 workflow,越需要提前写恢复路线。

Q2:为什么不让模型自己决定 fallback?
模型可以建议,但不能独自决定风险边界。retry、备用 Skill、降级产物和人工接管都应由 workflow 规则约束。

Q3:fallback 后的产物可以直接验收吗?
通常不应该。降级产物要明确标注缺口,人工 owner 需要知道它不是完整报告。

先给一个关键 Skill 写恢复路

选择一个 Axon workflow 中最容易失败的 Skill,例如 PDF 提取、网页读取、连接器动作或表格解析。写出 failureSignals、retry、alternateSkill、askForSourceData、downgradeArtifact 和 humanReview。了解更多版本锁定、输出 schema 和文件边界后,再把 Skill Fallback Routes 变成链式 Skills 的标准组成部分。