摘要
本发明公开了一种基于潜在扩散模型的机器人多模态数据生成方法及系统,方法包含:获取机器人感知所需的多模态数据,并对其进行预处理和数据增强操作,生成多模态数据集;构建基于潜在扩散模型的多模态数据生成模型,该模型包括变分自编码器、U‑Net网络和条件嵌入编码器;确定训练配置,动态调整各模态的融合权重,利用多模态数据集训练该模型;由条件信息进行引导,通过该模型进行可控多模态数据生成。本发明有效解决了机器人感知领域中数据获取困难及成本高昂的问题。通过引入潜在扩散模型,可生成高质量的大规模多模态数据,为多种下游任务提供支持,从而显著提升机器人感知能力。
技术关键词
数据生成模型
数据生成方法
编码器
多模态
机器人
噪声
网络
交叉注意力机制
数据压缩
数据生成系统
信息编码
数据分布
样本
解码器架构
变量
模型训练模块
残差预测
去噪模型