一种基于视觉语言大模型智能体的应用程序自动控制方法

正文

推荐专利

申请号：CN202510720016

申请日期：2025-05-30

公开号：CN120215768B

公开日期：2025-09-19

类型：发明专利

摘要

本发明涉及一种基于视觉语言大模型智能体的应用程序自动控制方法，属于信息技术领域。该方法利用多个视觉语言大模型智能体VLM Agent协同调度的方式共同完成用户自动控制任务，并采用即时策略规划为主、全局策略规划为辅的智能体决策方法，旨在克服全局策略规划的缺陷，提高方法的泛化能力与通用性。为了挖掘VLM Agent在解决应用程序自动控制问题的潜力，本发明采用通用规则元素提取的方式，取代主流的GUI‑Grounding方法，来尽可能提高UI控件识别准确率。此外，本发明还利用图像拼接技术，对VLM Agent在执行自动控制任务时产生的多模态消息进行拼接，减少多轮长对话种图像信息在提示词中的占比，提高方法运行速度，缓解共享历史上下文过长问题。

技术关键词

应用程序智能自动控制方法视觉控件策略规划序列图像拼接技术图形用户接口团队消息构建用户接口坐标系定义界面标注工具记忆多模态

系统为您推荐了相关专利信息

基于GPU资源的MaaS模型动态部署方法

动态部署方法道路病害路段图像道路交叉口

基于边缘计算的隧道模块化预制舱供配电智能变电站自适应调控系统

供配电智能子模块调控系统消防集成模块决策

一种配电网分布式能源调度优化方法及相关装置

多智能体强化学习调度优化方法光伏发电单元能源储能单元

基于AI边缘决策的智能终端的任务分配方法及相关装置

任务分配策略智能终端电磁干扰数据矩阵任务分配方法

一种基于AI边缘计算的无人一体机动态算力分配系统及方法

分配系统任务调度资源分配环境感知数据设备状态数据

一种基于视觉语言大模型智能体的应用程序自动控制方法

站点导航

APP 下载