摘要
本发明公开一种基于反事实学习提升视频时刻检索性能的方法和系统,输入视频和对应的文本查询;提取视频特征和文本特征;对视频特征和文本特征进行交互对齐获得编码器的嵌入;将获得的编码器嵌入输入到反事实样本合成模块获得反事实编码器内容嵌入和反事实编码器位置嵌入;利用Transformer解码器模块获得解码器输出;将解码器输出输入因果模块计算编码器嵌入的因果效应,获得因果表征。对因果表和编码器嵌入获得的解码器输出进行时序预测获得集合预测;通过预测的结果和真实的标签进行监督训练有效减少虚假相关性的影响,增强模型在不同分布数据上的泛化性能,使模型能够更准确地定位视频中与自然语言查询相关的时刻片段。
技术关键词
编码器
解码器
多模态交互
视频
特征提取模块
文本
多模态特征
效应
双曲正切函数
计算机设备
嵌入工具
匈牙利算法
超参数
可读存储介质
多层感知机
融合策略
标签
样本