一种融合跨模态语义信息的视频摘要方法

正文

推荐专利

一种融合跨模态语义信息的视频摘要方法

申请号：CN202510248933

申请日期：2025-03-04

公开号：CN120126056B

公开日期：2025-08-12

类型：发明专利

摘要

本发明公开了一种融合跨模态语义信息的视频摘要方法，属于计算机视觉技术领域。所述方法首先从输入视频中提取图像帧序列和运动帧序列，然后利用跨模态特征提取网络分别提取静态特征和动态特征。接着，通过时空卷积关联注意力机制处理帧特征，生成反映帧特征时空重要性的注意力图，同时捕捉帧内空间信息和帧间时间信息。此外，引入跨模态动态融合模块和语义一致性校正器，以优化视频摘要生成过程，减少噪声干扰，提升摘要质量。最后，构建目标函数，通过无监督或监督学习训练视频摘要生成模型，根据预测的重要性分数生成动态视频摘要。所述方法综合利用视频中的静态和动态特征，提高了摘要的语义准确性和内容连贯性。

技术关键词

视频摘要方法跨模态静态特征动态特征提取网络 RGB特征注意力机制语义特征校正器生成视频摘要计算机视觉技术衰减方法光流特征运动特征

系统为您推荐了相关专利信息

具有统计保证的非合作目标位姿测量方法和装置

位姿测量方法关键点语义深度神经网络采样点

一种基于城市复杂路口的智能全景动态导航方法

动态导航方法追踪算法车辆模型模型库交通控制技术

一种移动电源的电量均衡控制方法、系统、设备及产品

移动电源电量均衡控制方法路径优化算法电量均衡控制系统周期

动态规划的智能对话方法、装置、电子设备及存储介质

智能对话方法多轮对话画像数据库序列语义规则

一种方舱医院的智能电网管理方法及系统

系统运行参数智能电网管理方法环境监测系统大数据分析技术云端数据中心

一种融合跨模态语义信息的视频摘要方法

站点导航

APP 下载