一种运动与外观解耦的多尺度交互与语义校准视频摘要方法

正文

推荐专利

申请号：CN202511298065

申请日期：2025-09-11

公开号：CN120812373B

公开日期：2025-12-05

类型：发明专利

摘要

本发明公开了一种运动与外观解耦的多尺度交互与语义校准视频摘要方法，属于计算机视觉技术领域。所述方法包括：对输入视频帧序列分别提取多尺度运动特征和外观特征，得到对应特征金字塔；将运动特征金字塔和外观特征金字塔输入视频摘要模型，通过模型预测初始帧级重要性分数序列；再通过双向LSTM捕捉帧间时序依赖，强化关键动作边界的分数，并通过多样性惩罚减少冗余帧，输出优化后的帧级重要性分数序列；最后通过施加时间间隔约束优化帧分布，经通过贪婪算法选择关键帧生成视频摘要。本方法有效解决现有视频摘要方法中运动与外观特征耦合、多尺度表征不足、特征融合机制简单、模态权重失衡问题，在SumMe和TVSum基准数据集上的实验结果证明了其有效性。

技术关键词

视频摘要方法运动特征特征金字塔融合特征语义向量独立语义多尺度生成视频摘要初始重要性分数 Sigmoid函数序列贪婪算法跨模态关键帧视频摘要模型校准器

系统为您推荐了相关专利信息

基于时序图像分析的嵌入式行为异常检测系统

异常检测系统图像分析图像采集模块子模块轨迹

一种基于视觉的人形机器人的示教方法及系统

人体关键点人体示教人形机器人机器人关节人体姿态估计

穿戴设备的运动数据分析方法、装置及穿戴设备

运动数据分析方法运动特征参数数据分析装置惯性传感器角速度信息

声纹监测方法及相关装置、设备、系统和存储介质

频域特征光纤传感器时域特征监测方法卡尔曼滤波模型

基于计算机视觉的起锚抛锚期间锚链故障识别与预测方法

锚链多任务学习模型运动特征工业相机红外图像增强算法

一种运动与外观解耦的多尺度交互与语义校准视频摘要方法

站点导航

APP 下载