摘要
本公开的实施例提供了基于多模态大模型的闭环推理方法、装置及设备。应用于人工智能技术领域,所述方法包括:通过将所述屏幕视觉信息和所述目标任务指令输入至多模态大语言模型中,得到单一工具调用指令,单一工具调用指令包含对屏幕坐标或界面元素的操作信息;这样就将智能体对无数上层应用的控制问题,降维到了对操作系统层面少数几个原子操作的组合调用问题。基于屏幕视觉信息执行单一工具调用指令的类型对应的任务,更新屏幕视觉信息和单一工具调用指令,直至执行结果与目标任务对应的执行结果一致,以完成闭环推理,采用闭环反馈机制,基于真实、最新的视觉反馈,根据并进行动态调整和纠错,使得处理结果更加符合用户需求。
技术关键词
推理方法
屏幕
大语言模型
视觉
多模态
指令
序列
意图识别
操作系统层面
识别用户意图
闭环反馈机制
界面
文档对象模型
点击工具
记忆
推理装置
元素
人工智能技术
控制工具
系统为您推荐了相关专利信息
视觉特征
运动学特征
机器人运动学
手术工具
样本