摘要
本发明公开了一种多模信息下的人体动作时序检测方法,涉及视频理解及计算机视觉领域。本发明包括:搜集公开人体动作视频数据并完成预处理;生成文本提示序列并提取文本特征;构建多模态时序特征提取器提取多模态时空特征序列;构建多模态时序响应模块生成动作响应序列;构建动作提名生成器生成动作提名;构建多模态实例级动作检测模块实现人体动作检测。本发明通过上述技术方案,充分利用多模态数据有效信息,提升人体动作检测精度。
技术关键词
文本
时序检测方法
序列
可见光
人体动作检测
视频
生成动作
注意力
检测损失
网络
模块
视觉
线性
多模态响应
语义特征
级联
系统为您推荐了相关专利信息
大语言模型
历史工单数据
复杂度
车道
动态交通信息
评分机制
计算机可执行指令
数据分布
灰色关联度分析
信息熵
节点
瞬态特征
稳态特征
深度置信网络模型
电子产品
生物芯片
肺癌辅助诊断
特异性扩增引物
检测患者外周血
非小细胞肺癌患者