摘要
本发明公开了一种运动与外观解耦的多尺度交互与语义校准视频摘要方法,属于计算机视觉技术领域。所述方法包括:对输入视频帧序列分别提取多尺度运动特征和外观特征,得到对应特征金字塔;将运动特征金字塔和外观特征金字塔输入视频摘要模型,通过模型预测初始帧级重要性分数序列;再通过双向LSTM捕捉帧间时序依赖,强化关键动作边界的分数,并通过多样性惩罚减少冗余帧,输出优化后的帧级重要性分数序列;最后通过施加时间间隔约束优化帧分布,经通过贪婪算法选择关键帧生成视频摘要。本方法有效解决现有视频摘要方法中运动与外观特征耦合、多尺度表征不足、特征融合机制简单、模态权重失衡问题,在SumMe和TVSum基准数据集上的实验结果证明了其有效性。
技术关键词
视频摘要方法
运动特征
特征金字塔
融合特征
语义向量
独立语义
多尺度
生成视频摘要
初始重要性分数
Sigmoid函数
序列
贪婪算法
跨模态
关键帧
视频摘要模型
校准器
系统为您推荐了相关专利信息
异常检测系统
图像分析
图像采集模块
子模块
轨迹
人体关键点
人体示教
人形机器人
机器人关节
人体姿态估计
运动数据分析方法
运动特征参数
数据分析装置
惯性传感器
角速度信息
频域特征
光纤传感器
时域特征
监测方法
卡尔曼滤波模型
锚链
多任务学习模型
运动特征
工业相机
红外图像增强算法