摘要
本申请提供一种具身智能数据处理方法以及设备,涉及具身智能领域,该具身智能数据处理方法包括:获取具身智能体的任务参考视频;对任务参考视频进行多模态特征提取,得到任务参考视频的视觉语义特征和任务执行对象的身体姿态特征;对视觉语义特征和身体姿态特征进行融合,得到融合特征;根据融合特征,对任务参考视频进行任务识别和对任务执行对象进行行为意图识别,得到识别结果;根据识别结果,确定任务参考视频的有效视频片段,有效视频片段用于具身智能体执行任务过程中的操作的验证和/或参考。本申请通过多模态技术实现具身智能数据的自动化处理,提高了数据处理效率和准确性,节省了人力成本。
技术关键词
智能数据处理方法
意图类别
姿态特征
融合特征
阶段
语义特征
意图识别
对象
计算机执行指令
标记
深度学习模型
视频片段识别
身体
多模态技术
运动轨迹数据
多头注意力机制
视觉
系统为您推荐了相关专利信息
农作物识别
深度神经网络模型
长短期记忆网络
构建深度神经网络
多模态环境
实时检测方法
高频特征
混合编码器
残差归一化
图像
参数辨识方法
光伏并网系统
电磁暂态仿真模型
两阶段
皮尔逊相关系数
连续手语识别方法
视觉特征提取
特征提取模块
特征提取器
卷积模块