摘要
本申请提出的机器人的控制方法和装置、电子设备、存储介质,涉及机器人控制技术领域,适用于金融科技领域及医疗健康领域。该方法包括:获取目标操作文本,对目标操作文本进行文本编码,得到目标操作文本特征;获取初始视角图像,对初始视角图像进行图像编码,得到初始图像特征;根据目标操作文本特征和初始图像特征进行图像变化预测,得到目标预测视频,目标预测视频包括至少两个预测图像;根据目标预测视频进行特征提取,得到视频时空特征序列;根据视频时空特征序列和目标操作文本特征进行逆动力学建模,得到预测图像的目标预测动作;控制目标机器人执行目标预测动作。本申请能够有效捕捉动态视觉变化的关键信息,提高了机器人控制准确性。
技术关键词
视频时空特征
视频生成模型
文本
动作特征
图像编码
样本
序列
多视角
噪声图像
注意力
融合图像特征
解码器
机器人控制技术
电子设备
图文
系统为您推荐了相关专利信息
大语言模型
聊天系统
聊天方法
知识库系统
意图识别
心理状态分析
心理状态评估
深度学习算法
多模态数据融合
加权融合算法