一种基于反事实学习提升视频时刻检索性能的方法和系统

正文

推荐专利

申请号：CN202510807094

申请日期：2025-06-17

公开号：CN120632158A

公开日期：2025-09-12

类型：发明专利

摘要

本发明公开一种基于反事实学习提升视频时刻检索性能的方法和系统，输入视频和对应的文本查询；提取视频特征和文本特征；对视频特征和文本特征进行交互对齐获得编码器的嵌入；将获得的编码器嵌入输入到反事实样本合成模块获得反事实编码器内容嵌入和反事实编码器位置嵌入；利用Transformer解码器模块获得解码器输出；将解码器输出输入因果模块计算编码器嵌入的因果效应，获得因果表征。对因果表和编码器嵌入获得的解码器输出进行时序预测获得集合预测；通过预测的结果和真实的标签进行监督训练有效减少虚假相关性的影响，增强模型在不同分布数据上的泛化性能，使模型能够更准确地定位视频中与自然语言查询相关的时刻片段。

技术关键词

编码器解码器多模态交互视频特征提取模块文本多模态特征效应双曲正切函数计算机设备嵌入工具匈牙利算法超参数可读存储介质多层感知机融合策略标签样本

一种基于反事实学习提升视频时刻检索性能的方法和系统

站点导航

APP 下载