多模态办公 Agent:先设计资料入口,再谈自动化

Axon AI 2026-05-23 AI 数字员工 Skills 技能
#多模态办公Agent#AI数字员工#Office自动化#workspace
多模态办公 Agent:先设计资料入口,再谈自动化
摘要:多模态资料进入 AI 数字员工前,必须先被分流、归档、命名和验收。Axon 用 System Skills、Source Data 和 workspace 把 PDF、Excel、图片、网页和邮件变成可追溯流程。

多模态办公Agent 是指能够处理 PDF、Word、Excel、图片、网页、邮件和结构化字段的 AI 数字员工,但它的质量不取决于“模型能看多少格式”,而取决于资料进入流程时是否被分流、命名、校验、归档和验收。白领团队真正耗时的地方,往往不是单次阅读文件,而是每周重复把附件、截图、表格、网页链接和邮件内容整理成同一个可交付结果。

OpenAI 的工具文档持续强调文件、工具和计算机使用等能力入口,见 OpenAI tools guide。这些能力说明多模态办公会成为 AI Agent 的常态。但在企业里,直接把所有资料丢进对话框,容易造成上下文丢失、来源不清、重复上传、文件版本混乱和审核困难。

四条资料入口车道

多模态办公Agent 的第一层设计,是把资料分成四条入口车道,而不是按“用户随手上传什么”来处理。

入口车道 常见材料 Axon 承接能力 验收重点
文档车道 PDF、Word、Markdown Office / File Skills 内容是否提取完整,引用是否可追溯
表格车道 Excel、CSV、费用表 Excel Skill 字段是否对齐,数值是否可复核
视觉车道 截图、产品图、票据图 Media / Image Skill 识别结果是否标注不确定项
互联网车道 网页、资讯、邮件、日历 Internet Skills 来源 URL、时间和权限是否清楚

这张表避免了一个常见误区:多模态不是把资料混成一个大提示词,而是让每类资料先进入合适的 Skill,再把产物交给 Agent 编排。

多模态办公的第一原则:先把资料放进正确入口车道,再让 Agent 编排产物,而不是把所有上下文塞进一次对话。

workspace 是资料保管处,不是临时文件夹

很多团队把 AI 产物留在聊天窗口里,过几天就找不到版本。Axon 更适合把每次运行当作一个 workspace 事件:原始文件、提取内容、中间 Markdown、最终 PDF、邮件草稿、审核意见都要有路径。

workspace/
  customer-brief-2026-05-23/
    00-input/
      source-urls.md
      product-screenshots/
      customer-notes.pdf
    10-extracted/
      pdf-summary.md
      spreadsheet-fields.json
    20-draft/
      brief.md
      email-draft.md
    30-review/
      reviewer-notes.md
      approval-decision.md

这种目录并不是为了“看起来专业”,而是为了把可验收性提前。团队可以检查哪份 PDF 被读取,哪张图识别不确定,哪段网页资料被引用,最后交付物有没有越过 Trust Mode。

如果你还没有跑过入门链路,可以先看 Research、PDF、Email 工作流Axon 入门教程

Source Data 是多模态的交通标志

多模态资料一多,Agent 很容易把用户意图、资料类型和输出要求混在一起。Source Data 字段可以把入口车道变成明确变量。

  • documentFiles:需要读取的 PDF、Word 或 Markdown。
  • spreadsheetFiles:需要读取或修改的表格。
  • imageFiles:截图、票据或产品图。
  • sourceUrls:网页、资料页或公开来源。
  • outputFormat:Markdown、Word、PDF、表格或邮件草稿。
  • reviewOwner:最终验收人。
  • riskBoundary:是否涉及发送、发布、覆盖、删除或外部系统。

这与 Source Data 字段设计 是同一条主线:把一次性提示词里的变量拆出来,让 Agent 可以重复运行。

适合先做的多模态办公场景

第一个多模态办公Agent 不应选择“处理所有资料”。更稳的起点,是选择材料有限、产物明确、风险可控的场景。

客户会议资料包

输入包括客户官网链接、会议纪要、产品截图和过往邮件。输出是客户背景摘要、问题清单和会议前提醒。风险低,适合自动生成,发送前确认。

财务凭证初整理

输入包括票据图片、Excel 费用表和说明文档。输出是待复核字段表和异常说明。注意它只能做资料整理,不替代财务判断。

合同附件摘要

输入包括合同 PDF、补充协议和邮件往来。输出是条款摘要、待确认问题和来源定位。涉及法律判断时必须进入人工审核,不写成自动法律结论。

这些场景都能体现多模态办公Agent 的价值:不是替人做所有决定,而是把散乱材料变成可验收中间产物。

和 Axon System Skills 的关系

Axon 的 System Skills 已覆盖文件提取、Office、PDF、Excel、Markdown、网页、邮件、日历、研究和图片能力。多模态办公Agent 的正确姿势,是让 System Skills 处理原子能力,再由 Agent 负责顺序、输入传递和产物归档。可以继续阅读 System Skills 入门文章

如果某个流程长期重复,例如“每周把客户附件整理成销售简报”,再把中间格式封装成 User Skill。这样多模态能力不会散落在提示词里,而是进入可治理的 Skill 层。

首次配置动作

  1. 步骤 1:选择一个材料类型不超过三类的办公场景,并写出 documentFilesspreadsheetFilesimageFiles 字段。
  2. 步骤 2:为每条入口车道指定一个输出文件,例如 pdf-summary.mdspreadsheet-fields.jsonimage-uncertainty.md
  3. 步骤 3:在 workspace 中创建 30-review 目录,让审核人只验收中间产物和最终草稿。

FAQ

Q1: 多模态办公Agent 是否意味着所有文件都能自动处理?

不是。它意味着不同类型资料可以进入不同入口车道,并由合适的 Skill 处理。低风险整理可以自动,高风险判断仍要人工验收。

Q2: 为什么不直接把所有附件上传给模型?

因为上传不是流程。企业需要知道资料来源、版本、提取结果、产物路径和审核结论,否则出错时无法复盘。

Q3: 图片识别结果可以直接进入报告吗?

不建议直接进入最终报告。图片识别结果应先进入中间文件,并标注不确定项;审核人确认后再合并进交付物。

Q4: 第一个多模态流程应该怎么选?

选材料类型不超过三类、输出格式固定、不会直接对外产生影响的场景。例如会议资料包、周报素材整理、票据初分类。

给产品负责人的下一步

先不要写“让 AI 读完所有资料”。把一个高频办公场景拆成四条入口车道:文档、表格、视觉、互联网。为每条车道指定 Skill、输出路径和验收标准,再让 Axon Agent 把它们编排成可复用的多模态办公Agent。现在开始使用这套入口车道做一次小样本试跑,并继续了解更多 Axon System Skills 内容。