摘要
本发明属于姿态捕捉技术领域,提供基于空时Transformer的多模态人体姿态估计模型训练方法,包括:多模态人体姿态估计网络包括浅层空时Transformer级联网络、深层空时Transformer级联网络;获取样本对集;基于样本对集对文本特征提取网络和多模态人体姿态估计网络进行迭代训练,对浅层空时Transformer级联网络获得的全局姿态特征和文本特征提取网络获得的全局文本特征进行对比学习,基于对比损失优化浅层空时Transformer级联网络和文本特征提取网络的网络参数,基于关节位置误差优化视觉投影层、深层空时Transformer级联网络和姿态输出层的网络参数;本发明还公开了基于空时Transformer的多模态人体姿态估计方法,一种计算机程序产品和一种电子设备,本发明提高了姿态估计准确度。
技术关键词
模型训练方法
特征提取网络
文本
级联
姿态特征
人体姿态估计方法
样本
多模态
输出特征
姿态捕捉技术
模块
计算机程序产品
关节
视频帧
焦点
融合特征
电子设备
处理器
系统为您推荐了相关专利信息
文本
策略
动态链接库文件
内存访问模式
生成资源
多源异构数据
文本生成方法
解析工具
填充工具
数据处理工具
时间序列预测模型
矩阵
残差网络
编码模块
静态特征