AI 数字员工上线前,先过 Workflow Evals 和 Trust Mode

Axon AI 2026-05-27 AI 数字员工 Agents 数字员工
#Workflow Evals#Trust Mode#AI数字员工#Axon
AI 数字员工上线前,先过 Workflow Evals 和 Trust Mode
摘要:本文说明 AI 数字员工上线前需要通过 Workflow Evals:验证重复性、产物质量、权限边界和异常接管,再决定能否定时运行。

Workflow Evals 是 AI 数字员工上线前的一组工作流评估:它不只看模型回答是否漂亮,而是检查重复任务能否稳定读取输入、调用 Skills、生成可验收产物、触发正确的 Trust Mode,并在失败时留下可接管证据。很多团队每天、每周都想把重复工作交给 AI,却低估了上线门槛。一次演示成功不代表可以定时运行;一个 Agent 能跑通,不代表它能无人值守处理真实业务。

Anthropic 在 Building Effective Agents 中提到 evaluator-optimizer workflow,也强调 Agent 需要从环境获得 ground truth,并在检查点请求人类反馈。NIST 的 AI Risk Management Framework 也把 AI 风险管理放在组织设计、部署和使用过程里。放到 Axon 语境下,结论很直接:AI 数字员工上线前,必须先过 Workflow Evals,再由 Trust Mode 决定自动化等级。

一个成熟的 Agent 不是“跑过一次”,而是能被评估、能被约束、能被复盘、能在正确位置停下来。

不要把 demo 成功当成上线通过

办公自动化最危险的误判,是把一次 demo 的顺利输出当成生产稳定性。真实环境里,资料会缺失,网页会变,文件格式会乱,用户会换需求,邮件和发布动作会影响外部对象。没有这组上线评估,团队只能靠感觉判断 Agent 是否可靠,最后往往在最忙的时候才发现流程断了。

Axon 的 Workflow Evals 应该覆盖四个层面:

  • 重复性:同类输入是否走同样的 Skill chain。
  • 产物性:输出是否是可下载、可检查、可继续处理的 artifact。
  • 权限性:发送、删除、发布、覆盖等动作是否进入 Trust Mode。
  • 恢复性:失败后是否有日志、workspace 文件和人工接管入口。

这和 Scheduled Agent run journal 的思路一致:定时任务不是黑盒,它应该留下可复盘记录。

一张上线成熟度梯

阶段 允许范围 必须证明
Draft 人工触发,低风险资料 能生成初版 artifact
Reviewed 人工触发,真实资料 产物通过验收,失败能定位
Confirmed 部分自动,外部动作确认 Trust Mode 拦截正确
Scheduled 定时运行,低风险闭环 多次运行稳定,有 run journal
Expanded 扩展到更多流程 有异常队列、变更记录和 owner

这张梯子的目的不是拖慢上线,而是避免把“会跑”误判成“能托付”。

上线评估应该测什么

一个可执行的评估矩阵,可以比抽象讨论更有用:

workflowEvals:
  repeatability:
    question: "same class of input triggers same Skill chain?"
    passSignal: "step sequence and artifact types remain stable"
  artifactQuality:
    question: "does the output satisfy the acceptance contract?"
    passSignal: "owner can use the file without rewriting it"
  riskBoundary:
    question: "does risky external impact stop at Confirm or Auth?"
    passSignal: "email, publish, delete, overwrite never happen silently"
  recovery:
    question: "can a human continue after failure?"
    passSignal: "workspace evidence and error class are visible"

这个矩阵的重点,是把评估对象从“模型表现”转到“工作流表现”。模型可能很强,但如果产物不可验收、权限不清晰、失败不可恢复,AI 数字员工仍然不能上线。

落地时可以按三步执行:

  1. 先选一条低风险 Agent,只覆盖一个固定交付物。
  2. 连续运行多次,记录输入、Skill chain、产物、权限拦截和失败类型。
  3. 由 owner 根据验收规则决定进入 Draft、Reviewed、Confirmed 还是 Scheduled。

Trust Mode 是上线决策,不只是弹窗设计

很多团队把人工确认理解成最后一步弹窗。Axon 应该把 Trust Mode 当作上线决策语言:

  • Auto:低风险、可重跑、无外部影响。
  • Confirm:会影响外部对象,但人工确认即可放行。
  • Auth:需要账号、授权或更高责任边界。

如果一个流程里所有动作都被标成 Auto,通常不是自动化成熟,而是风险没有被识别。涉及邮件时,可以读 Trust Mode 邮件确认。涉及异常处理时,可以读 Agent exception queue runbook

评估失败时,不要只让模型重试

这类评估的另一个价值,是让失败进入正确修复路径。资料缺失时,应该补 Source Data;产物不合格时,应该改输出 schema 或模板;权限越界时,应该调整 Trust Mode;流程漂移时,应该回到 Agent steps 或 User Skill,而不是简单让模型“再认真一点”。

这也是为什么 Axon 的 AI 数字员工叙事必须围绕 Skills 和 Workflows。只有步骤明确,评估才有对象;只有产物明确,验收才有标准;只有权限明确,自动化才有边界。否则,所有问题都会被包装成一句含糊的“模型不稳定”。

如果你想从可靠性角度继续阅读,可以看 workspace Agent reliability review

常见问题

Q1:Workflow Evals 和普通模型评测有什么不同?
普通模型评测常看回答质量。Workflow Evals 看整条执行链:输入、Skill 调用、产物、权限、日志、异常恢复和人工接管。

Q2:什么时候可以开启定时运行?
至少要证明同类输入多次运行稳定,产物能被 owner 验收,高风险动作进入 Confirm 或 Auth,并且失败后能通过 workspace 和日志继续处理。

Q3:Workflow Evals 会不会增加太多成本?
短期会增加设计成本,长期会降低返工成本。没有评估的自动化,通常会在上线后用更高代价补救。

把上线判断写进流程

AI 数字员工能不能上线,不应该靠感觉。开始使用 Axon 时,可以先为一个低风险 Agent 建立上线评估:重复性、产物质量、Trust Mode、恢复路径。通过后再进入定时任务;没通过就回到 Skill、Source Data 或输出合同。阅读更多运行日志、Trust Mode 和 workspace reliability 内容,再把 AI 数字员工从演示推进到可托付的工作流。