摘要
本发明公开了一种基于全局记忆检索与双流动态融合的视频摘要生成方法,属于计算机视觉技术领域。所述方法包括:对输入视频帧序列进行特征提取,得到时序视频特征;将时序视频特征输入视频摘要生成模型,通过模型预测帧级重要性分数;将所述帧级重要性分数与中心置信度进行加权融合,获得最终帧级重要性得分;对所述帧级重要性得分执行时序非极大值抑制处理,抑制相邻高得分帧中的冗余帧,根据处理后的结果选择关键帧,并生成最终视频摘要。在基准数据集SumMe和TVSum上得到的实验结果证明了该方法的先进性。本发明所提出的视频摘要生成方法可以有效地提升长视频的时序建模能力和关键帧选择的准确性。
技术关键词
视频摘要生成方法
语义特征
时序特征
Softmax函数
内存
融合特征
记忆
矩阵乘法运算
动态门控
多任务
注意力
Sigmoid函数
关键帧
计算机视觉技术
融合全局