AI Agent 能独立工作了吗?Axon 视角下的可靠性、证据和人工验收

AI Agent可靠性 经常被问成一个过大的问题:它到底能不能独立工作?企业更应该问的是:这次运行处理了哪些输入,调用了哪些能力,留下了哪些文件,哪里可能出错,谁完成了验收。每天重复整理资料、每周手动生成报告、跨系统复制粘贴,本来就耗时且容易出错;如果 Agent 只给一个最终答案,却没有证据链,团队很难放心把流程交给它。Anthropic 的 computer use 文档说明模型可以通过截图、鼠标和键盘与计算机环境交互,这类能力越强,越需要可复盘设计。参考 Anthropic computer use tool。
可靠性不是性格评价,而是证据问题
很多讨论会说某个 Agent “聪明”或“不稳定”,但这些词很难指导企业上线。AI Agent可靠性 应该拆成四个可检查对象:输入是否完整、执行是否可追踪、产物是否可验收、风险动作是否被拦截。只要其中一个缺失,结果就算看起来正确,也难以进入长期流程。
Axon 的 workspace 适合保存文件证据,System Skills 和 User Skills 负责稳定动作,Agent 记录执行顺序,Trust Mode 把高风险动作交给人确认。能力层可以从 System Skills 入门文章 开始理解;审批边界可以看 Trust Mode 邮件确认边界。
如果一次 Agent 运行无法被复盘,它就不是可靠流程,只是一次看似成功的对话。
证据包:每次运行至少留下四类材料
AI Agent可靠性 的第一步,是给每次运行建立 evidence pack。它不需要复杂,但必须让业务负责人能在几分钟内判断结果是否可信。
run_id: research-risk-note-2026-05-21
input_snapshot:
- source_data_fields.md
- original_pdf_list.txt
execution_trace:
- searched_public_sources
- extracted_pdf_tables
- generated_risk_summary
artifacts:
- sources.md
- extracted-table.xlsx
- risk-note-draft.md
review:
owner: investment analyst
decision: revise
comments: "missing cutoff date and one source URL"
- 第一步:保存输入快照,避免后续争论“当时给了什么资料”。
- 第二步:保存执行摘要,不要求逐 token 记录,但要能看出主要动作。
- 第三步:保存中间产物,而不是只保留最终答案。
- 第四步:保存人工验收结论,包括接受、修改或拒绝的原因。
- 第五步:把复盘意见写回 Agent brief 或 Skill 说明。
失败分类:不要把所有问题都归为幻觉
| 失败类型 | 典型表现 | 修复方式 |
|---|---|---|
| 输入缺失 | Agent 没有截止日期或模板 | 增加 Source Data 必填字段 |
| 能力不匹配 | 需要读 PDF 却没有对应 Skill | 补充或替换 Skill |
| 顺序错误 | 先写结论再查来源 | 调整 Agent 编排 |
| 风险越界 | 准备外发或覆盖文件 | 提高 Trust Mode 等级 |
| 验收模糊 | 负责人不知道如何判断好坏 | 增加验收清单 |
把失败分清楚,团队才知道应该改提示、改字段、改工具、改审批,还是暂时不自动化。Axon 的价值在于让问题落到具体层,而不是把责任都推给模型。
验收协议:独立工作前先通过三轮复盘
第一轮:影子运行
让 Agent 处理真实输入,但不影响正式流程。负责人把结果与人工产物对比,记录来源缺口、字段缺口和格式缺口。
第二轮:受控交付
让 Agent 生成草稿或内部文件,但外发、发布、覆盖都必须确认。可以结合 Research PDF Email Agent 工作流,观察邮件草稿、PDF 摘要和表格产物是否可验收。
第三轮:周期复核
对于定时任务,先使用人工验收机制,再逐步放宽低风险步骤。可参考 定时执行与人工验收文章。
FAQ
Q1: AI Agent可靠性 能不能用一次成功运行证明?
不能。一次成功只能说明样例有效,不能说明流程可靠。至少要看多次运行的输入、产物、失败原因和人工修正记录。
Q2: 证据包会不会增加很多负担?
不会。证据包应该自动沉淀在 workspace 中,人工只需要补充验收结论。它节省的是出错后的追查时间。
Q3: 什么时候可以减少人工验收?
当失败类型稳定减少,低风险步骤连续通过,且产物格式和来源要求都稳定时,可以逐步减少低风险环节的确认。
Q4: 幻觉问题应该怎样处理?
先确认它属于来源缺失、字段缺失、工具失败还是模型编造。不同原因对应不同修复,不要只写一句“减少幻觉”。
下一步
开始使用 Axon 时,为一个现有 Agent 补上 evidence pack 规则,再运行三次对比复盘。了解更多 Skills 和 Trust Mode 后,把 AI Agent可靠性 从主观感受变成团队可审计的运营指标。