摘要
本发明属于机器人感知领域,提供了一种基于概念场景图与大模型融合的主动视觉感知方法与系统。其中,方法包括基于设定场景的图像,提取其中的候选实体及其文本描述和空间关系;从用户指令中提取目标实体,计算目标实体文本描述与候选实体之间的视觉‑语言对齐匹配分数,以匹配分数最高的候选实体为主节点构建概念场景图;利用嵌入有三元提示工程的大模型对概念场景图进行处理,结合成功的历史任务策略代码,生成当前任务场景的策略代码,以使得机器人主动感知场景中的隐式信息,实现被遮挡且存在视觉混淆的目标实体的识别与抓取。
技术关键词
视觉感知方法
实体
场景
概念
文本
属性匹配
机器人
预训练模型
视觉感知系统
图像
策略
模块
关系
处理器
计算机设备
节点
可读存储介质
指令
存储器
系统为您推荐了相关专利信息
阅读理解模型
问答方法
注意力机制
注意力模型
BERT模型
数据解压方法
数据压缩方法
网络结构
系统级芯片
解码器
风速
空调控制方法
分层
姿态识别模型
空调控制模块