摘要
本发明公开了一种长视频理解方法、装置、设备及存储介质,包括:获取用户的问题指令及对应问题指令的长视频;基于长视频的视觉内容和预先训练的基于多头自注意力机制的深度学习网络模型,输出语义特征向量集;对语义特征向量集中的语义特征向量进行合并,获得长视频的视觉特征;将长视频的帧位置和语义特征向量集输入至预先训练的U形神经网络模型中,确定视觉特征相对于长视频的预设帧的相对位置;将相对位置添加至对应的视觉特征中,生成视觉时序特征;将视觉时序特征和问题指令输入至预先训练的长视频理解模型中,输出问题指令对应的问题答案。利用该方法:利用时间定位的方式保证模型找到视频中正确的时间位置,从而增强长视频理解的能力。
技术关键词
视觉特征
视频理解方法
深度学习网络模型
语义
时序特征
神经网络模型
注意力机制
指令
计算机程序产品
答案
输出模块
可读存储介质
时间定位
电子设备
处理器通信