摘要
本发明提供一种跨模态时序语义对齐的动作质量评估方法及系统,本发明通过回归模型从运动序列视频和运动序列文本描述中分别提取视觉特征Fv和文本特征Ft;并对视觉特征Fv进行自监督子动作解析,对视觉特征Fv和文本特征Ft进行跨模态注意力交互学习;采用自监督方式进行跨模态语义对齐并进行全局语义对比学习;采用基于分数分布回归的方法对动作进行质量评估。本发明通过挖掘视频序列中不同模态之间的对齐关系,及序列内部时序关联,增强子动作序列的高层语义表示,以获得准确的运动序列质量评估结果;通过动作语义对齐来促进不同模态之间的交互,提高子动作序列语义判定的准确度;进一步提高运动质量评估中分数预测的准确性和可解释性。
技术关键词
跨模态
动作特征
文本
嵌入特征
序列
时序
矩阵
交叉注意力机制
斯皮尔曼等级相关系数
视频
运动
注意力编码器
上下文查询
高层语义信息
多模态
视觉特征提取
系统为您推荐了相关专利信息
表格
检索方法
文本段落
大语言模型
预训练语言模型
特征融合方法
长短期记忆网络
数据预测方法
序列
长短期记忆模型