人工确认边界:AI 数字员工从可用到可信的关键设计

人工确认边界 是企业采用 AI 数字员工时最容易被低估的设计。团队希望减少每天重复、手动、耗时的工作,但又担心 Agent 误发邮件、覆盖文件、泄露资料或代表公司做出错误承诺。Anthropic 的 Claude Cowork 说明中提到本地 Agent 模式和知识工作场景,这类桌面协作能力越接近真实办公,越需要把可自动动作和必须确认的动作区分清楚。参考 Get started with Cowork。
不是确认越多越安全,而是边界越清晰越安全
如果所有步骤都要求人工确认,AI 数字员工会退化成慢速助手;如果所有步骤都自动执行,团队又很难承担外部风险。人工确认边界 的价值,是把动作分成低风险、中风险和高风险,让 Agent 在安全范围内自动推进,在关键节点停下来请求明确授权。
Axon 的 Trust Mode 正是为这类边界服务。它不是把 Agent 关起来,而是给流程加上可解释的风险闸门。邮件场景可先读 Trust Mode 邮件确认边界;如果要把流程搭起来,则参考 AI Build 组装第一个 Agent。
可信的自动化不是“永远自动”,而是“低风险自动,高风险停下,确认后再继续”。
审批卡片:让确认变成结构化判断
人工确认边界 不能只弹出一句“是否继续”。确认人需要知道 Agent 想做什么、影响范围是什么、风险在哪里、可选动作有哪些。
approval_card:
action: send_email
agent: investor-update-agent
recipient: "partner@example.com"
artifact: "email-draft.md"
risk_level: high
reason: "external recipient and investment-related wording"
reviewer_options:
- approve_once
- edit_then_approve
- reject_and_comment
- require_more_sources
- 第一步:说明动作类型,例如发送、发布、覆盖、删除或调用外部系统。
- 第二步:显示受影响对象,例如收件人、文件、系统或客户群。
- 第三步:显示风险原因,避免确认人只凭感觉判断。
- 第四步:提供可操作选项,而不是只有“同意/取消”。
- 第五步:把拒绝原因写回 Agent,让下一次运行更稳。
风险等级:哪些动作必须拦截
低风险动作
内部资料摘要、草稿生成、表格预填、文件命名建议通常可以自动执行。这些动作不直接触达外部对象,也不覆盖关键资产。
中风险动作
编辑共享文件、生成客户可见材料、调用内部系统查询敏感数据,应根据场景触发确认或二次检查。可结合 Research PDF Email Agent 工作流 观察草稿生成和邮件发送之间的边界。
高风险动作
外发邮件、公开发布、删除或覆盖文件、提交审批、触发财务或法律后果,都应该强制进入人工确认。周期任务也要先有验收机制,可参考 定时执行与人工验收文章。
| 风险等级 | 示例动作 | 默认处理 |
|---|---|---|
| 低 | 内部摘要、临时草稿 | 自动执行并留痕 |
| 中 | 共享文档修改、客户材料草稿 | 视字段和对象确认 |
| 高 | 外发、发布、覆盖、删除 | 强制人工确认 |
| 禁止 | 编造数据、绕过权限 | 直接拒绝并记录 |
FAQ
Q1: 人工确认边界 会不会降低效率?
合理边界不会降低效率。它让低风险步骤自动推进,只在外发、覆盖、发布和敏感动作上停下来,减少返工和事故处理成本。
Q2: 谁应该作为确认人?
确认人应该是该流程的业务负责人,而不是系统管理员。销售邮件由销售负责人确认,法务条款由法务负责人确认。
Q3: 拒绝一次 Agent 动作后怎么办?
拒绝原因要结构化记录,例如来源不足、收件人错误、措辞风险或文件版本错误。下一次运行应自动引用这些反馈。
Q4: 哪些动作应该永远禁止?
绕过权限、伪造来源、编造数据、隐藏外部影响的动作应直接禁止,而不是交给人工临时判断。
下一步
开始使用 Axon 时,先为一个 Agent 列出四类动作:可自动、需确认、需二次复核、禁止。再了解更多 Trust Mode 配置,把人工确认边界 做成团队默认治理规则。