摘要
本发明公开了空时多尺度交互的视频摘要生成方法及系统,涉及图像处理技术领域。本发明包括:接收待处理视频构成数据集,对数据集进行改造,为数据集中每个视频添加类别,并将视频按照类别划分训练集和测试集,要求测试集中的类别不能在训练集中出现;根据划分的训练集和测试集,分别为其查询集选取支持集视频。本发明能够将传统视频摘要生成技术改造成面向少样本场景的视频摘要生成技术,模型仅需要少量的样本即可快速掌握同类视频的摘要生成所需关注的重点,对于训练中没有见过的类别可以快速泛化。并且利用双分支结构获取空时特征,并结合多尺度交互方式充分利用空时特征,为生成摘要提供多尺度的信息。
技术关键词
视觉特征
视频摘要生成方法
融合特征
交互组件
时序特征
空间多尺度
视频摘要生成技术
模块
空时特征
交互模型
摘要生成系统
双分支结构
注意力
网络
数据
查询特征