摘要
本发明属于机器人和计算机视觉领域,公开了一种基于人类演示指导的机器人控制方法、装置及介质,首先,获取机器人所执行任务对应的人类演示视频;提取机器人初始状态图像中的潜在特征表示与人类演示视频中第一帧和整个演示视频的视觉信息;将所提取的机器人初始状态潜在特征表示输入空间信息处理模块,将U型网络各层提取出的不同尺寸特征输入时空信息处理模块U型网络对应的层中;将人类演示视频的视觉信息输入时空信息处理模块,由时空信息处理模块进行逐步去噪,生成机器人操作视频并预测出要执行的动作序列。与现有技术相比,本发明能够高效利用人类演示的信息,通过扩散模型的能力,实现对于机器人的准确控制,使其有效地执行目标任务。
技术关键词
信息处理模块
机器人控制方法
人类
视频
生成机器人
网络
尺寸特征
视觉特征信息
交叉注意力机制
遥操作系统
收集机器人
输出特征
图像
编码器
可读存储介质
特征提取器
多层感知机
系统为您推荐了相关专利信息
广告运营系统
关键词
页面文字
标记
区域停留时间
数字孪生系统
虚拟世界仿真
协议
控制策略
数据包传输控制
无人机视频流传输
资源分配方法
比例公平调度算法
码率
速率
内容分析系统
上下文特征
多模态特征融合
敏感内容检测
标记