摘要
本发明涉及视频理解技术领域,具体公开一种基于多模态动态提示与时空稀疏化的视频动作定位方法,该方法包括:利用预设深度学习模型的多模态动态提示生成器,生成全局特征向量与提示向量,利用预设深度学习模型的空间剪枝模块,得到时空稀疏化的时序聚合特征并压缩得到目标视频特征;利用预设深度学习模型中的自注意力模块与双向LSTM网络,并结合每个样本视频的目标视频特征与动作类别标签数据,对预设深度学习模型进行迭代训练,得到视频动作定位模型,并将待测视频输入至视频动作定位模型,得到动作定位结果。本发明在提升语义表达与模态对齐能力的同时,还能满足视频动作定位的实时性需求,并大幅提高视频动作定位的准确性。
技术关键词
视频
深度学习模型
动作定位方法
多模态
文本特征向量
样本
特征提取模型
文本编码器
多层感知器
动作定位系统
时序
动态
注意力
标签
全局平均池化
可读存储介质
数据
模块
理解技术
电子设备
系统为您推荐了相关专利信息
垃圾分类设备
智能分类方法
高维特征向量
多模态
深度残差
时间卷积网络
样本
多源异构数据
原型
多模态特征
审计方法
动态预约系统
三维空间地图
审计日志
审计系统
检测模型训练方法
内核
模块
融合多模态信息
3D点云数据