一种高斯引导跨模态学习的视频问答定位方法与系统

正文

推荐专利

申请号：CN202510008837

申请日期：2025-01-03

公开号：CN120144693B

公开日期：2025-12-26

类型：发明专利

摘要

本发明公开了一种高斯引导跨模态学习的视频问答定位方法与系统。包括：对视频问答公开数据集进行特征提取，得到视频帧特征和问题特征；将视频帧特征输入时间Transformer，得到全局时序特征和注意力权重；利用全局时序特征和问题特征，构建时间权重分布，对视频帧特征加权，得到加权视觉特征；利用注意力权重和时间权重分布构建时间回溯机制，得到时间回溯特征；将时间回溯特征和问题特征进行特征融合，得到多模态融合特征和预测答案；引入跨时间因果对比损失进行学习，得到训练完成的模型；用户将待处理视频和问题输入训练完成的模型，输出问题的预测答案和视频定位结果。本发明能够提升定位的语义相关性、降低模型运算复杂度、提升模型的定位表现。

技术关键词

视频帧特征跨模态学习时序特征融合特征定位方法视觉特征嵌入位置信息样本多模态前馈神经网络数据文本编码器生成答案定位系统注意力机制动态

一种高斯引导跨模态学习的视频问答定位方法与系统

站点导航

APP 下载