基于多模态大模型的闭环推理方法、装置及设备

AITNT
正文
推荐专利
基于多模态大模型的闭环推理方法、装置及设备
申请号:CN202511512531
申请日期:2025-10-22
公开号:CN120996209A
公开日期:2025-11-21
类型:发明专利
摘要
本公开的实施例提供了基于多模态大模型的闭环推理方法、装置及设备。应用于人工智能技术领域,所述方法包括:通过将所述屏幕视觉信息和所述目标任务指令输入至多模态大语言模型中,得到单一工具调用指令,单一工具调用指令包含对屏幕坐标或界面元素的操作信息;这样就将智能体对无数上层应用的控制问题,降维到了对操作系统层面少数几个原子操作的组合调用问题。基于屏幕视觉信息执行单一工具调用指令的类型对应的任务,更新屏幕视觉信息和单一工具调用指令,直至执行结果与目标任务对应的执行结果一致,以完成闭环推理,采用闭环反馈机制,基于真实、最新的视觉反馈,根据并进行动态调整和纠错,使得处理结果更加符合用户需求。
技术关键词
推理方法 屏幕 大语言模型 视觉 多模态 指令 序列 意图识别 操作系统层面 识别用户意图 闭环反馈机制 界面 文档对象模型 点击工具 记忆 推理装置 元素 人工智能技术 控制工具
系统为您推荐了相关专利信息
1
一种AR辅助家庭搭配制作科学膳食的方法及系统
菜品区域 智能菜板 食材图像 AR眼镜 数据
2
一种使用深度学习的高分辨率食管测压图像分析方法
食管 图像分析方法 大语言模型 文本 自然语言
3
一种基于机器视觉的柔性梁顶推线形测量方法
标靶 线形测量方法 激光测距仪 坐标 基准
4
基于过渡状态聚类的手术机器人辅助任务分割方法
视觉特征 运动学特征 机器人运动学 手术工具 样本
5
一种基于计算机的数字内容的处理方法及装置
血管 磁共振成像图像 节点 孕妇 皮尔逊相关系数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号