摘要
本申请公开了一种对比语义查询的多模态装配动作识别方法,涉及人机协作装配技术领域,该方法包括:通过在装配工作台布设视觉传感器获取操作员动作视频,经随机帧采样得到采样帧序列、人体姿态估计得到骨骼序列,输入装配动作识别模型完成识别。该模型含图像编码、骨骼编码、特征融合、文本编码及语义对比模块,分别提取图像与骨骼特征、融合特征、编码预设类别文本描述、对比动作特征与类别文本特征并输出相似度最高结果,训练时采用对比损失函数。此方法融合多模态信息,解决单一模态局限与多模态语义割裂问题,充分利用类别文本语义,提升细粒度动作识别精度,降低过拟合风险,增强模型在动态工业场景的泛化与任务迁移能力。
技术关键词
动作识别方法
动作识别模型
文本
编码模块
语义
人体骨骼
人体姿态估计
骨骼特征
视频
动作特征
数据
序列
图像编码
装配工作台
注意力
样本
融合多模态信息
视觉传感器
适配器
前馈神经网络
系统为您推荐了相关专利信息
智能对话模型
动态语义特征
意图识别模型
意图类别
转移概率矩阵
双通道卷积神经网络
全局路径规划
穿刺机器人
三维模型
导航方法
合规性检测方法
广告
特征提取模块
多模态特征融合
视频特征提取