摘要
本发明公开了一种基于深度学习和合成数据的物体位姿估计方法及相关设备,属于计算机视觉技术领域。方法包括:利用仿真建模软件和自动化脚本生成实例分割和位姿估计合成数据集;训练YOLO11‑seg模型并辅助构建用于训练域适应模型的数据集;训练基于改进CycleGAN的仿真到现实域适应模型并用于增强位姿估计合成数据集中RGB图像的逼真度;使用增强合成数据集训练基于多模态特征融合和注意力机制的位姿估计模型,利用YOLO11‑seg提取真实场景目标前景RoI数据,输入位姿估计模型,输出物体的6D位姿。本发明能够准确估计无序场景下物体位姿,提升机器人抓取成功率,并可有效减小合成与真实数据的域间差异,降低数据的标注成本,使方法可以适用于工业场景。
技术关键词
物体位姿估计方法
注意力机制
融合特征
图像
多层感知机
多模态特征融合
实例分割
支路
数据
物体自由落体
场景
计算机视觉技术
三维模型
掩膜
机器人抓取
网络
脚本
仿真建模
点云特征