一种基于视觉语言大模型智能体的应用程序自动控制方法

AITNT
正文
推荐专利
一种基于视觉语言大模型智能体的应用程序自动控制方法
申请号:CN202510720016
申请日期:2025-05-30
公开号:CN120215768B
公开日期:2025-09-19
类型:发明专利
摘要
本发明涉及一种基于视觉语言大模型智能体的应用程序自动控制方法,属于信息技术领域。该方法利用多个视觉语言大模型智能体VLM Agent协同调度的方式共同完成用户自动控制任务,并采用即时策略规划为主、全局策略规划为辅的智能体决策方法,旨在克服全局策略规划的缺陷,提高方法的泛化能力与通用性。为了挖掘VLM Agent在解决应用程序自动控制问题的潜力,本发明采用通用规则元素提取的方式,取代主流的GUI‑Grounding方法,来尽可能提高UI控件识别准确率。此外,本发明还利用图像拼接技术,对VLM Agent在执行自动控制任务时产生的多模态消息进行拼接,减少多轮长对话种图像信息在提示词中的占比,提高方法运行速度,缓解共享历史上下文过长问题。
技术关键词
应用程序智能 自动控制方法 视觉 控件 策略 规划 序列 图像拼接技术 图形用户接口 团队 消息 构建用户接口 坐标系 定义 界面 标注工具 记忆 多模态
系统为您推荐了相关专利信息
1
基于GPU资源的MaaS模型动态部署方法
动态部署方法 道路病害 路段 图像 道路交叉口
2
基于边缘计算的隧道模块化预制舱供配电智能变电站自适应调控系统
供配电智能 子模块 调控系统 消防集成模块 决策
3
一种配电网分布式能源调度优化方法及相关装置
多智能体强化学习 调度优化方法 光伏发电单元 能源 储能单元
4
基于AI边缘决策的智能终端的任务分配方法及相关装置
任务分配策略 智能终端 电磁干扰数据 矩阵 任务分配方法
5
一种基于AI边缘计算的无人一体机动态算力分配系统及方法
分配系统 任务调度 资源分配 环境感知数据 设备状态数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号