摘要
本发明涉及一种基于视觉语言大模型智能体的应用程序自动控制方法,属于信息技术领域。该方法利用多个视觉语言大模型智能体VLM Agent协同调度的方式共同完成用户自动控制任务,并采用即时策略规划为主、全局策略规划为辅的智能体决策方法,旨在克服全局策略规划的缺陷,提高方法的泛化能力与通用性。为了挖掘VLM Agent在解决应用程序自动控制问题的潜力,本发明采用通用规则元素提取的方式,取代主流的GUI‑Grounding方法,来尽可能提高UI控件识别准确率。此外,本发明还利用图像拼接技术,对VLM Agent在执行自动控制任务时产生的多模态消息进行拼接,减少多轮长对话种图像信息在提示词中的占比,提高方法运行速度,缓解共享历史上下文过长问题。
技术关键词
应用程序智能
自动控制方法
视觉
控件
策略
规划
序列
图像拼接技术
图形用户接口
团队
消息
构建用户接口
坐标系
定义
界面
标注工具
记忆
多模态
系统为您推荐了相关专利信息
多智能体强化学习
调度优化方法
光伏发电单元
能源
储能单元
任务分配策略
智能终端
电磁干扰数据
矩阵
任务分配方法
分配系统
任务调度
资源分配
环境感知数据
设备状态数据