摘要
本发明公开了一种用于机器人视觉动作预测的联合去噪方法,通过融合深度相机采集的图像和深度图、Piper机械臂CAN线通信采集的动作数据以及Gelsight Mini触觉传感器采集的触觉图像,构建统一的生成模型。该方法包括数据采集与输入编码、联合去噪与生成两大步骤:首先将多模态数据编码为低维潜在表示,随后通过基于Transformer的联合去噪框架协同预测未来图像、深度图、触觉数据及机器人动作。创新性引入掩码自注意力机制,动态调整模态间信息交互,并利用触觉反馈指导动作生成,提升力控制精度。模型采用去噪扩散概率损失函数联合优化多模态预测,确保输出一致性。本发明显著提高机器人灵巧操作的鲁棒性和准确性。
技术关键词
联合去噪方法
机器人视觉
注意力机制
触觉传感器
图像
深度相机
多模态
深度图编码
生成高分辨率
数据
编码器
触觉特征
噪声
触觉信息
标记
末端执行器