摘要
本公开涉及面向机器人大模型的作业场景对齐生成方法、系统及介质。用于解决现有技术不能生成对齐现实场景的视频,缺乏物理交互相关的细节,影响示教效果和后续规划的可靠性的问题。本公开方案利用红外图像增强附加场景背景信息,以获得场景中的细粒度结构信息,从而获得更全面的视频生成上下文提示。随后,利用扩散模型将这些增强的提示准确转化为高质量的视频内容,使得生成的视频对齐现实场景,增强机器人示教效果和后续规划的可靠性。
技术关键词
视频
作业场景
机器人作业
交叉注意力机制
多模态
生成方法
大语言模型
文本
机器人示教
噪声
规划
解码器
编码器
图像增强
可读存储介质