摘要
本发明公开了基于多模态统一表征的视频语言时序定位方法及系统,对原始视频进行预处理,使用骨干网络提取语言查询的特征和预处理视频的特征,利用高斯混合模型对提取特征进行统一表征建模,将基于高斯混合统一表征的特征输入多层感知机模型中进行映射,将映射后特征与提取特征进行残差连接,得到最终特征;利用交叉注意力机制,捕获与语言查询有关的视频特征;分别输入时刻检索检测头和高光检测检测头中,得到时刻检索结果和高光检测结果;引入可学习的不确定性因子,得到时刻检索损失函数与高光检测损失函数;对时刻检索结果使用时刻检索损失函数,得到视频时刻检索结果,对高光检测结果使用高光检测损失函数,得到视频高光检测关键帧。
技术关键词
视频
交叉注意力机制
检测损失
定位方法
时序
关键帧
多层感知机
音频特征
视觉特征
优化高斯混合模型
多模态特征
网络
线性
因子
可视化模块
可读存储介质
特征提取模块