摘要
本发明属于机器人抓取技术领域,公开了一种基于多模态融合与强化学习的复杂场景抓取方法及系统,包括获取用户的语言指令和抓取场景RGB图像;基于语言指令和抓取场景RGB图像,获得文本特征、图像特征、位置特征和抓取特征进行特征;基于交叉注意力机制,对文本特征、图像特征、位置特征和抓取特征进行特征融合操作,获得交叉注意力特征;将交叉注意力特征作为状态空间,抓取位姿作为动作空间,将抓取序列规划问题建模为马尔科夫决策过程,采用强化学习方法进行求解,获得最终的复杂场景抓取模型。本发明通过多模态联合建模与预训练模型先验融合,不仅提升了机器人在面对复杂环境中的适应能力,还显著提高了方法的泛化性和现实世界中的执行效果。
技术关键词
高维特征向量
抓取方法
强化学习方法
多模态
交叉注意力机制
图像位置特征
场景
文本
机器人抓取技术
指令
引导机器人
序列
计算机
处理器
抓取系统
特征提取模块
抓取动作
数据获取模块
系统为您推荐了相关专利信息
交叉注意力机制
分子
多层感知机
神经网络模型
序列
训练管理系统
个性化学习路径
模块
智能算法
训练管理方法
异构传感器
对齐方法
特征提取网络
多路径
多模态传感器
知识点
信息化教学
动态知识图谱
深度学习提取特征
多头注意力机制
状态分析方法
眼动轨迹
XGBoost模型
动作捕捉传感器
多层卷积神经网络