摘要
本申请提供了一种基于人体姿态的实时视频动作计数方法。该方法包括:获取输入的视频片段,以及需要计数的动作类别文本;针对输入视频片段,使用实时人体姿态估计方法BlazePose逐帧提取,获得人体姿态序列;使用轻量化Transformer模型编码所述姿态序列,并引入交叉注意力融合所述类别文本的语义,从而获得包含周期性动作语义的表征序列;将所得表征序列的每一表征解码为单通道密度图,并使用Sigmoid函数调整密度图取值区间;对密度图进行帧级概率累加,得到整个视频片段中某动作类别的重复次数,即目标输出。本申请通过设计轻量化模型降低计算开销,实现了视频动作的实时计数,提升了模型的推理效率与准确性,适用于健身监测、运动评估等需要高实时性的场景。
技术关键词
实时视频
人体姿态估计方法
计数方法
Sigmoid函数
密度
姿态特征
序列
文本
关键点
交叉注意力机制
数值
前馈神经网络
可读存储介质
解码
特征提取模块
线性
系统为您推荐了相关专利信息
历史负荷数据
综合能源系统
负荷预测方法
联合分布函数
负荷预测模型
功率器件
故障检测方法
三轮车
历史故障数据
参数
智能控制系统
智能马桶
声音特征提取
优化缩放因子
多模态特征融合