摘要
本发明公开了一种融合跨模态语义信息的视频摘要方法,属于计算机视觉技术领域。所述方法首先从输入视频中提取图像帧序列和运动帧序列,然后利用跨模态特征提取网络分别提取静态特征和动态特征。接着,通过时空卷积关联注意力机制处理帧特征,生成反映帧特征时空重要性的注意力图,同时捕捉帧内空间信息和帧间时间信息。此外,引入跨模态动态融合模块和语义一致性校正器,以优化视频摘要生成过程,减少噪声干扰,提升摘要质量。最后,构建目标函数,通过无监督或监督学习训练视频摘要生成模型,根据预测的重要性分数生成动态视频摘要。所述方法综合利用视频中的静态和动态特征,提高了摘要的语义准确性和内容连贯性。
技术关键词
视频摘要方法
跨模态
静态特征
动态
特征提取网络
RGB特征
注意力机制
语义特征
校正器
生成视频摘要
计算机视觉技术
衰减方法
光流特征
运动特征
系统为您推荐了相关专利信息
动态导航方法
追踪算法
车辆模型
模型库
交通控制技术
移动电源
电量均衡控制方法
路径优化算法
电量均衡控制系统
周期
智能对话方法
多轮对话
画像数据库
序列
语义规则
系统运行参数
智能电网管理方法
环境监测系统
大数据分析技术
云端数据中心