一种运动与外观解耦的多尺度交互与语义校准视频摘要方法

AITNT
正文
推荐专利
一种运动与外观解耦的多尺度交互与语义校准视频摘要方法
申请号:CN202511298065
申请日期:2025-09-11
公开号:CN120812373B
公开日期:2025-12-05
类型:发明专利
摘要
本发明公开了一种运动与外观解耦的多尺度交互与语义校准视频摘要方法,属于计算机视觉技术领域。所述方法包括:对输入视频帧序列分别提取多尺度运动特征和外观特征,得到对应特征金字塔;将运动特征金字塔和外观特征金字塔输入视频摘要模型,通过模型预测初始帧级重要性分数序列;再通过双向LSTM捕捉帧间时序依赖,强化关键动作边界的分数,并通过多样性惩罚减少冗余帧,输出优化后的帧级重要性分数序列;最后通过施加时间间隔约束优化帧分布,经通过贪婪算法选择关键帧生成视频摘要。本方法有效解决现有视频摘要方法中运动与外观特征耦合、多尺度表征不足、特征融合机制简单、模态权重失衡问题,在SumMe和TVSum基准数据集上的实验结果证明了其有效性。
技术关键词
视频摘要方法 运动特征 特征金字塔 融合特征 语义向量 独立语义 多尺度 生成视频摘要 初始重要性分数 Sigmoid函数 序列 贪婪算法 跨模态 关键帧 视频摘要模型 校准器
系统为您推荐了相关专利信息
1
基于时序图像分析的嵌入式行为异常检测系统
异常检测系统 图像分析 图像采集模块 子模块 轨迹
2
一种基于视觉的人形机器人的示教方法及系统
人体关键点 人体示教 人形机器人 机器人关节 人体姿态估计
3
穿戴设备的运动数据分析方法、装置及穿戴设备
运动数据分析方法 运动特征参数 数据分析装置 惯性传感器 角速度信息
4
声纹监测方法及相关装置、设备、系统和存储介质
频域特征 光纤传感器 时域特征 监测方法 卡尔曼滤波模型
5
基于计算机视觉的起锚抛锚期间锚链故障识别与预测方法
锚链 多任务学习模型 运动特征 工业相机 红外图像增强算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号