多模态办公 Agent：先设计资料入口，再谈自动化

Axon AI 2026-05-23 AI 数字员工 Skills 技能

#多模态办公Agent#AI数字员工#Office自动化#workspace

摘要：多模态资料进入 AI 数字员工前，必须先被分流、归档、命名和验收。Axon 用 System Skills、Source Data 和 workspace 把 PDF、Excel、图片、网页和邮件变成可追溯流程。

多模态办公Agent 是指能够处理 PDF、Word、Excel、图片、网页、邮件和结构化字段的 AI 数字员工，但它的质量不取决于“模型能看多少格式”，而取决于资料进入流程时是否被分流、命名、校验、归档和验收。白领团队真正耗时的地方，往往不是单次阅读文件，而是每周重复把附件、截图、表格、网页链接和邮件内容整理成同一个可交付结果。

OpenAI 的工具文档持续强调文件、工具和计算机使用等能力入口，见 OpenAI tools guide。这些能力说明多模态办公会成为 AI Agent 的常态。但在企业里，直接把所有资料丢进对话框，容易造成上下文丢失、来源不清、重复上传、文件版本混乱和审核困难。

四条资料入口车道

多模态办公Agent 的第一层设计，是把资料分成四条入口车道，而不是按“用户随手上传什么”来处理。

入口车道	常见材料	Axon 承接能力	验收重点
文档车道	PDF、Word、Markdown	Office / File Skills	内容是否提取完整，引用是否可追溯
表格车道	Excel、CSV、费用表	Excel Skill	字段是否对齐，数值是否可复核
视觉车道	截图、产品图、票据图	Media / Image Skill	识别结果是否标注不确定项
互联网车道	网页、资讯、邮件、日历	Internet Skills	来源 URL、时间和权限是否清楚

这张表避免了一个常见误区：多模态不是把资料混成一个大提示词，而是让每类资料先进入合适的 Skill，再把产物交给 Agent 编排。

多模态办公的第一原则：先把资料放进正确入口车道，再让 Agent 编排产物，而不是把所有上下文塞进一次对话。

workspace 是资料保管处，不是临时文件夹

很多团队把 AI 产物留在聊天窗口里，过几天就找不到版本。Axon 更适合把每次运行当作一个 workspace 事件：原始文件、提取内容、中间 Markdown、最终 PDF、邮件草稿、审核意见都要有路径。

workspace/
  customer-brief-2026-05-23/
    00-input/
      source-urls.md
      product-screenshots/
      customer-notes.pdf
    10-extracted/
      pdf-summary.md
      spreadsheet-fields.json
    20-draft/
      brief.md
      email-draft.md
    30-review/
      reviewer-notes.md
      approval-decision.md

这种目录并不是为了“看起来专业”，而是为了把可验收性提前。团队可以检查哪份 PDF 被读取，哪张图识别不确定，哪段网页资料被引用，最后交付物有没有越过 Trust Mode。

如果你还没有跑过入门链路，可以先看 Research、PDF、Email 工作流和 Axon 入门教程。

Source Data 是多模态的交通标志

多模态资料一多，Agent 很容易把用户意图、资料类型和输出要求混在一起。Source Data 字段可以把入口车道变成明确变量。

documentFiles：需要读取的 PDF、Word 或 Markdown。
spreadsheetFiles：需要读取或修改的表格。
imageFiles：截图、票据或产品图。
sourceUrls：网页、资料页或公开来源。
outputFormat：Markdown、Word、PDF、表格或邮件草稿。
reviewOwner：最终验收人。
riskBoundary：是否涉及发送、发布、覆盖、删除或外部系统。

这与 Source Data 字段设计是同一条主线：把一次性提示词里的变量拆出来，让 Agent 可以重复运行。

适合先做的多模态办公场景

第一个多模态办公Agent 不应选择“处理所有资料”。更稳的起点，是选择材料有限、产物明确、风险可控的场景。

客户会议资料包

输入包括客户官网链接、会议纪要、产品截图和过往邮件。输出是客户背景摘要、问题清单和会议前提醒。风险低，适合自动生成，发送前确认。

财务凭证初整理

输入包括票据图片、Excel 费用表和说明文档。输出是待复核字段表和异常说明。注意它只能做资料整理，不替代财务判断。

合同附件摘要

输入包括合同 PDF、补充协议和邮件往来。输出是条款摘要、待确认问题和来源定位。涉及法律判断时必须进入人工审核，不写成自动法律结论。

这些场景都能体现多模态办公Agent 的价值：不是替人做所有决定，而是把散乱材料变成可验收中间产物。

和 Axon System Skills 的关系

Axon 的 System Skills 已覆盖文件提取、Office、PDF、Excel、Markdown、网页、邮件、日历、研究和图片能力。多模态办公Agent 的正确姿势，是让 System Skills 处理原子能力，再由 Agent 负责顺序、输入传递和产物归档。可以继续阅读 System Skills 入门文章。

如果某个流程长期重复，例如“每周把客户附件整理成销售简报”，再把中间格式封装成 User Skill。这样多模态能力不会散落在提示词里，而是进入可治理的 Skill 层。

首次配置动作

步骤 1：选择一个材料类型不超过三类的办公场景，并写出 documentFiles、spreadsheetFiles 或 imageFiles 字段。
步骤 2：为每条入口车道指定一个输出文件，例如 pdf-summary.md、spreadsheet-fields.json 或 image-uncertainty.md。
步骤 3：在 workspace 中创建 30-review 目录，让审核人只验收中间产物和最终草稿。

FAQ

Q1: 多模态办公Agent 是否意味着所有文件都能自动处理？

不是。它意味着不同类型资料可以进入不同入口车道，并由合适的 Skill 处理。低风险整理可以自动，高风险判断仍要人工验收。

Q2: 为什么不直接把所有附件上传给模型？

因为上传不是流程。企业需要知道资料来源、版本、提取结果、产物路径和审核结论，否则出错时无法复盘。

Q3: 图片识别结果可以直接进入报告吗？

不建议直接进入最终报告。图片识别结果应先进入中间文件，并标注不确定项；审核人确认后再合并进交付物。

Q4: 第一个多模态流程应该怎么选？

选材料类型不超过三类、输出格式固定、不会直接对外产生影响的场景。例如会议资料包、周报素材整理、票据初分类。

给产品负责人的下一步

先不要写“让 AI 读完所有资料”。把一个高频办公场景拆成四条入口车道：文档、表格、视觉、互联网。为每条车道指定 Skill、输出路径和验收标准，再让 Axon Agent 把它们编排成可复用的多模态办公Agent。现在开始使用这套入口车道做一次小样本试跑，并继续了解更多 Axon System Skills 内容。