Vibe一下能自动画工程图、做3D装配的AI来了丨上海AI Lab

AI技术研报 2026-07-05 09:43

+8388 阅读

当大模型开始“使用电脑”，我们似乎离真正的AI自动化又近了一步。

过去一年，从浏览器操作、表格填写，到办公软件自动执行任务，Computer-Use Agent正在成为大模型落地的重要方向。

但一旦进入真正的专业软件，这条路线很快遇到了瓶颈。

比如，让Agent在SolidWorks中完成3D建模与装配，在AutoCAD里绘制一张带尺寸标注的工程图，或者在Photoshop、Premiere里完成一套完整的修图、剪辑流程等，这些专业人员的日常工作，现有的Computer-use agent仍难稳定完成。

原因很简单：一方面，专业软件的界面远比日常软件更加复杂、密集，对Agent的视觉感知与定位能力提出了更高要求；另一方面，专业级任务往往不是几步点击就能完成，而是包含数十甚至上百个连续操作。一次微小的交互偏差，可能会在长链路中不断累积，最终影响整个任务结果。

近日，上海AI Lab等团队提出了一种面向专业软件智能体的新范式——ComAct（COM-as-Action）。

它的核心思想在于：不再把鼠标点击和键盘输入作为Agent的action，而是让Agent直接生成COM代码，通过软件底层对象模型操纵真实专业软件。

Vibe一下能自动画工程图、做3D装配的AI来了丨上海AI Lab

专业软件Agent的核心瓶颈：不是不会规划，而是操作方式太脆弱

当前GUI Agent存在显著短板。以CAD软件为例，一个完整任务可能包括创建草图、设置约束、拉伸实体、编辑特征、装配零件、检查干涉、生成工程图、导出文件等多个阶段。每个阶段都涉及大量细粒度操作，而且强依赖前一步结果。

在这样的场景里，Agent不仅要理解任务，还要持续完成高精度视觉定位和低层交互。一旦选错工具、点错对象、输入错参数，后续步骤就可能全部偏离。

另一条路线是API/MCP-based Agent。它通过结构化接口调用完成任务，执行更稳定。但在真实专业软件中，公开API往往并不完整，不同软件之间接口差异巨大，很多商业软件也并不具有开源的API。

因此，专业软件Agent面临的并不是简单的“模型不够聪明”，而是GUI作为action space还不够适合这些任务，具体原因是：

GUI操作鼠标和键盘足够通用，但长程任务中容易受视觉定位误差影响；直接调用软件API更稳定，但常常受限于商用专业接口碎片化和功能覆盖不足，很难在工业软件中使用。

ComAct试图从另一个角度切入：既然很多重型桌面软件本身就暴露了系统级对象接口，为什么不让Agent直接使用这些接口？

Vibe一下能自动画工程图、做3D装配的AI来了丨上海AI Lab

△GUI as Action依赖视觉定位，API/MCP as Action面临接口碎片化，而COM as Action将专业软件操作转化为统一的代码执行。

COM：让Agent用“软件自己的语言”操作软件

COM，全称Component Object Model，是Windows生态中长期存在的一套组件对象模型标准。

大多数传统、重型专业软件都通过COM暴露内部对象和功能。

对于Agent来说，COM更接近软件内部语义。Agent不再需要在屏幕上寻找按钮，而是可以直接操作软件对象，例如CAD中的草图、零件、装配体，或Office中的文档、表格、幻灯片。其二，COM提供了更确定的执行方式。相比连续GUI点击，COM代码一旦生成正确，就可以直接调用软件功能，减少长程操作中的视觉定位误差累积。其三，COM具备跨软件扩展潜力。Office、Adobe、Autodesk、SolidWorks等大量Windows专业软件都不同程度支持COM，这为跨软件工作流提供了统一入口。

也就是说，ComAct把专业软件操作从：

看屏幕→找按钮→点鼠标

变成了：

理解任务→生成代码→执行软件对象操作

这正好匹配大模型最强的能力之一：代码生成。

在ComAct中，Agent每一步会看到当前软件截图和上一轮代码执行后的terminal输出。如果代码报错，它可以根据traceback修复；如果任务还没完成，它继续生成新的COM脚本；如果最终结果满足要求，它输出DONE。

这使得Agent不再是一个低层GUI操作者，而更像一个会写自动化脚本的工程师。

Vibe一下能自动画工程图、做3D装配的AI来了丨上海AI Lab

ComCADBench：让Agent真正进入CAD工程现场

为了验证这一范式，研究团队构建了ComCADBench，一个面向真实CAD软件操纵的benchmark。

Vibe一下能自动画工程图、做3D装配的AI来了丨上海AI Lab

△ComCADBench覆盖3个CAD平台、7类工程活动，并支持长程多任务工作流。

它覆盖三款主流CAD软件：SolidWorks、Inventor、AutoCAD，以及七类核心工程任务：2D草图、3D建模、编辑、装配、工程图生成、质量属性分析和干涉检查。整个benchmark包含400条单任务与600条多任务流程，模拟真实工程场景中常见的任务组合，比如建模后分析物理属性、装配后做干涉检查等。ComCADBench直接基于最终CAD artifact进行评价，也更接近真实工程任务的评估方式。

ComForge：面向真实专业软件的大规模并行训练平台

真正训练一个能稳定操纵专业软件的Agent，需要让它在大量真实环境中反复试错、获得反馈。为此，团队搭建了ComForge。每个环境都是一个容器化的Windows虚拟机，内部预装SolidWorks、Inventor、AutoCAD等软件，Agent生成的代码会在其中真实执行，软件会真实返回截图和报错信息。一个异步调度器负责把任务分发到空闲的虚拟机上，让成百上千个环境同时跑起来，从而支持大规模评测与强化训练。

基于ComForge，团队训练出了智能体ComActor，通过结合监督微调与强化学习的训练流程，让模型从”能写出语法正确的COM代码”逐步进化到”能根据报错自我修正”，并进一步对齐最终CAD产物的工程要求。

Vibe一下能自动画工程图、做3D装配的AI来了丨上海AI Lab

△ComAct主框架。包括数据构建、ComActor闭环执行，以及ComForge并行真实软件环境。

GUI Agent受限，COM范式打开新局面

在ComCADBench真实CAD长程任务中，当前GUI Agent的表现非常有限。复杂界面、精细定位和多步骤依赖，使得GUI Agent几乎全线0分。但当action space从GUI切换到COM后，同样的模型在零样本设置下就能拿到非零、甚至可观的成功率。这说明大模型本身具备完成这些任务所需的推理能力，只是被传统GUI交互方式限制住了。

最终，训练后的ComActor在ComCADBench上全面匹敌GPT-5、Claude-Sonnet-4.6等参数量更大的模型，在需要多步骤接力完成的长流程任务上优势尤为明显；在两个外部通用CAD基准上，也展现出了不错的泛化能力。

Vibe一下能自动画工程图、做3D装配的AI来了丨上海AI Lab

写在最后

这项工作提供了一个值得关注的思路：当GUI操作太脆弱、专业软件又没有公开API时，COM这类系统级原生接口，可能是AI操纵专业软件更现实的一条路。论文也指出了当前局限——目前的验证仍局限于CAD领域和Windows平台，商用软件授权等现实问题也有待解决。但考虑到Office、Adobe等大量专业软件同样原生支持COM，这一范式具备向更广泛场景迁移的潜力。

论文链接：

https://arxiv.org/abs/2606.13239

项目主页：

https://KnowledgeXLab.github.io/ComAct

第一作者：

Jiaxin Ai(Shanghai AI Lab/武汉大学)

文章来自于微信公众号 “量子位”，作者 “量子位”

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。

项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！

项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址：https://github.com/n8n-io/n8n

在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。

项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file

【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

AI 3D建模

【开源免费】LGM是一个AI建模的项目，它可以将你上传的平面图片，变成一个3D的模型。

项目地址：https://github.com/3DTopia/LGM?tab=readme-ov-file

在线使用：https://replicate.com/camenduru/lgm

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。

项目地址：https://github.com/InternLM/xtuner