基于多模态统一表征的视频语言时序定位方法及系统

正文

推荐专利

申请号：CN202510204821

申请日期：2025-02-24

公开号：CN120144823B

公开日期：2025-12-26

类型：发明专利

摘要

本发明公开了基于多模态统一表征的视频语言时序定位方法及系统，对原始视频进行预处理，使用骨干网络提取语言查询的特征和预处理视频的特征，利用高斯混合模型对提取特征进行统一表征建模，将基于高斯混合统一表征的特征输入多层感知机模型中进行映射，将映射后特征与提取特征进行残差连接，得到最终特征；利用交叉注意力机制，捕获与语言查询有关的视频特征；分别输入时刻检索检测头和高光检测检测头中，得到时刻检索结果和高光检测结果；引入可学习的不确定性因子，得到时刻检索损失函数与高光检测损失函数；对时刻检索结果使用时刻检索损失函数，得到视频时刻检索结果，对高光检测结果使用高光检测损失函数，得到视频高光检测关键帧。

技术关键词

视频交叉注意力机制检测损失定位方法时序关键帧多层感知机音频特征视觉特征优化高斯混合模型多模态特征网络线性因子可视化模块可读存储介质特征提取模块

基于多模态统一表征的视频语言时序定位方法及系统

站点导航

APP 下载