多模态办公 Agent:先设计资料入口,再谈自动化

多模态办公Agent 是指能够处理 PDF、Word、Excel、图片、网页、邮件和结构化字段的 AI 数字员工,但它的质量不取决于“模型能看多少格式”,而取决于资料进入流程时是否被分流、命名、校验、归档和验收。白领团队真正耗时的地方,往往不是单次阅读文件,而是每周重复把附件、截图、表格、网页链接和邮件内容整理成同一个可交付结果。
OpenAI 的工具文档持续强调文件、工具和计算机使用等能力入口,见 OpenAI tools guide。这些能力说明多模态办公会成为 AI Agent 的常态。但在企业里,直接把所有资料丢进对话框,容易造成上下文丢失、来源不清、重复上传、文件版本混乱和审核困难。
四条资料入口车道
多模态办公Agent 的第一层设计,是把资料分成四条入口车道,而不是按“用户随手上传什么”来处理。
| 入口车道 | 常见材料 | Axon 承接能力 | 验收重点 |
|---|---|---|---|
| 文档车道 | PDF、Word、Markdown | Office / File Skills | 内容是否提取完整,引用是否可追溯 |
| 表格车道 | Excel、CSV、费用表 | Excel Skill | 字段是否对齐,数值是否可复核 |
| 视觉车道 | 截图、产品图、票据图 | Media / Image Skill | 识别结果是否标注不确定项 |
| 互联网车道 | 网页、资讯、邮件、日历 | Internet Skills | 来源 URL、时间和权限是否清楚 |
这张表避免了一个常见误区:多模态不是把资料混成一个大提示词,而是让每类资料先进入合适的 Skill,再把产物交给 Agent 编排。
多模态办公的第一原则:先把资料放进正确入口车道,再让 Agent 编排产物,而不是把所有上下文塞进一次对话。
workspace 是资料保管处,不是临时文件夹
很多团队把 AI 产物留在聊天窗口里,过几天就找不到版本。Axon 更适合把每次运行当作一个 workspace 事件:原始文件、提取内容、中间 Markdown、最终 PDF、邮件草稿、审核意见都要有路径。
workspace/
customer-brief-2026-05-23/
00-input/
source-urls.md
product-screenshots/
customer-notes.pdf
10-extracted/
pdf-summary.md
spreadsheet-fields.json
20-draft/
brief.md
email-draft.md
30-review/
reviewer-notes.md
approval-decision.md
这种目录并不是为了“看起来专业”,而是为了把可验收性提前。团队可以检查哪份 PDF 被读取,哪张图识别不确定,哪段网页资料被引用,最后交付物有没有越过 Trust Mode。
如果你还没有跑过入门链路,可以先看 Research、PDF、Email 工作流 和 Axon 入门教程。
Source Data 是多模态的交通标志
多模态资料一多,Agent 很容易把用户意图、资料类型和输出要求混在一起。Source Data 字段可以把入口车道变成明确变量。
documentFiles:需要读取的 PDF、Word 或 Markdown。spreadsheetFiles:需要读取或修改的表格。imageFiles:截图、票据或产品图。sourceUrls:网页、资料页或公开来源。outputFormat:Markdown、Word、PDF、表格或邮件草稿。reviewOwner:最终验收人。riskBoundary:是否涉及发送、发布、覆盖、删除或外部系统。
这与 Source Data 字段设计 是同一条主线:把一次性提示词里的变量拆出来,让 Agent 可以重复运行。
适合先做的多模态办公场景
第一个多模态办公Agent 不应选择“处理所有资料”。更稳的起点,是选择材料有限、产物明确、风险可控的场景。
客户会议资料包
输入包括客户官网链接、会议纪要、产品截图和过往邮件。输出是客户背景摘要、问题清单和会议前提醒。风险低,适合自动生成,发送前确认。
财务凭证初整理
输入包括票据图片、Excel 费用表和说明文档。输出是待复核字段表和异常说明。注意它只能做资料整理,不替代财务判断。
合同附件摘要
输入包括合同 PDF、补充协议和邮件往来。输出是条款摘要、待确认问题和来源定位。涉及法律判断时必须进入人工审核,不写成自动法律结论。
这些场景都能体现多模态办公Agent 的价值:不是替人做所有决定,而是把散乱材料变成可验收中间产物。
和 Axon System Skills 的关系
Axon 的 System Skills 已覆盖文件提取、Office、PDF、Excel、Markdown、网页、邮件、日历、研究和图片能力。多模态办公Agent 的正确姿势,是让 System Skills 处理原子能力,再由 Agent 负责顺序、输入传递和产物归档。可以继续阅读 System Skills 入门文章。
如果某个流程长期重复,例如“每周把客户附件整理成销售简报”,再把中间格式封装成 User Skill。这样多模态能力不会散落在提示词里,而是进入可治理的 Skill 层。
首次配置动作
- 步骤 1:选择一个材料类型不超过三类的办公场景,并写出
documentFiles、spreadsheetFiles或imageFiles字段。 - 步骤 2:为每条入口车道指定一个输出文件,例如
pdf-summary.md、spreadsheet-fields.json或image-uncertainty.md。 - 步骤 3:在 workspace 中创建
30-review目录,让审核人只验收中间产物和最终草稿。
FAQ
Q1: 多模态办公Agent 是否意味着所有文件都能自动处理?
不是。它意味着不同类型资料可以进入不同入口车道,并由合适的 Skill 处理。低风险整理可以自动,高风险判断仍要人工验收。
Q2: 为什么不直接把所有附件上传给模型?
因为上传不是流程。企业需要知道资料来源、版本、提取结果、产物路径和审核结论,否则出错时无法复盘。
Q3: 图片识别结果可以直接进入报告吗?
不建议直接进入最终报告。图片识别结果应先进入中间文件,并标注不确定项;审核人确认后再合并进交付物。
Q4: 第一个多模态流程应该怎么选?
选材料类型不超过三类、输出格式固定、不会直接对外产生影响的场景。例如会议资料包、周报素材整理、票据初分类。
给产品负责人的下一步
先不要写“让 AI 读完所有资料”。把一个高频办公场景拆成四条入口车道:文档、表格、视觉、互联网。为每条车道指定 Skill、输出路径和验收标准,再让 Axon Agent 把它们编排成可复用的多模态办公Agent。现在开始使用这套入口车道做一次小样本试跑,并继续了解更多 Axon System Skills 内容。