摘要
本发明公开了一种基于多模态融合的自然语言视频时刻检索方法,属于数据识别技术领域,包括步骤:获取用于自然语言视频时刻定位的数据集;构造一通道感知的多尺度时序建模模块MD1;获取一文本编码器;构造一多头解耦式跨模态特征融合模块MD2,构造语义调制门控卷积模块MD3;基于MD1、MD2、文本编码器、MD3构造自然语言时刻检索网络并训练为自然语言时刻检索模型;用于待测视频的自然语言时刻检测。本发明通过MD1能显著增强与查询语义相关的视觉特征响应,通过MD2在多个语义子空间实现跨模态细粒度整合,通过MD3确保候选片段评分高度依赖查询语义,能显著提升定位精度与鲁棒性。
技术关键词
自然语言
检索方法
文本编码器
视频
多模态
注意力
卷积模块
模态特征
矩阵
语义
数据识别技术
时序特征
通道
输出特征
融合特征
全局平均池化
动态门控
网络
系统为您推荐了相关专利信息
智慧校园
档案管理系统
视频特征数据
连续性
关键帧
大语言模型
识别方法
JSON格式数据
句法依存关系
文本
视频
令牌
计算机程序产品
对称加密算法
计算机程序指令