摘要
本发明公开了一种高斯引导跨模态学习的视频问答定位方法与系统。包括:对视频问答公开数据集进行特征提取,得到视频帧特征和问题特征;将视频帧特征输入时间Transformer,得到全局时序特征和注意力权重;利用全局时序特征和问题特征,构建时间权重分布,对视频帧特征加权,得到加权视觉特征;利用注意力权重和时间权重分布构建时间回溯机制,得到时间回溯特征;将时间回溯特征和问题特征进行特征融合,得到多模态融合特征和预测答案;引入跨时间因果对比损失进行学习,得到训练完成的模型;用户将待处理视频和问题输入训练完成的模型,输出问题的预测答案和视频定位结果。本发明能够提升定位的语义相关性、降低模型运算复杂度、提升模型的定位表现。
技术关键词
视频帧特征
跨模态学习
时序特征
融合特征
定位方法
视觉特征
嵌入位置信息
样本
多模态
前馈神经网络
数据
文本编码器
生成答案
定位系统
注意力机制
动态