面向机器人大模型的作业场景对齐生成方法、系统及介质

正文

推荐专利

申请号：CN202411641051

申请日期：2024-11-15

公开号：CN119729042A

公开日期：2025-03-28

类型：发明专利

摘要

本公开涉及面向机器人大模型的作业场景对齐生成方法、系统及介质。用于解决现有技术不能生成对齐现实场景的视频，缺乏物理交互相关的细节，影响示教效果和后续规划的可靠性的问题。本公开方案利用红外图像增强附加场景背景信息，以获得场景中的细粒度结构信息，从而获得更全面的视频生成上下文提示。随后，利用扩散模型将这些增强的提示准确转化为高质量的视频内容，使得生成的视频对齐现实场景，增强机器人示教效果和后续规划的可靠性。

技术关键词

视频作业场景机器人作业交叉注意力机制多模态生成方法大语言模型文本机器人示教噪声规划解码器编码器图像增强可读存储介质

面向机器人大模型的作业场景对齐生成方法、系统及介质

站点导航

APP 下载