摘要
本申请提供一种视频摘要生成方法、电子设备、存储介质及程序产品。方法包括:基于第一预设策略,对原始视频进行语义特征提取,得到语义主题特征;基于第二预设策略,对原始视频进行图像特征提取,得到与原始视频中的视频帧对应的帧级图像特征;对语义主题特征和帧级图像特征进行注意力特征融合,得到图文融合特征;根据图文融合特征,对视频帧进行筛选,得到由目标视频帧构成的集合,作为视频摘要,目标视频帧表征满足第一预设条件的视频帧。如此,通过提取并结合字幕语义特征以及视频帧图像特征,使得视频摘要的生成兼顾语义和图像信息,改善传统视频摘要生成方式缺乏对语义信息的关注,导致生成的视频摘要不够全面、准确性不足的问题。
技术关键词
语义主题
视频帧
融合特征
视频摘要生成方法
语义特征提取
双模态
文本特征向量
图像特征提取
图文
预训练模型
图像特征向量
音频特征
视觉特征
文本编码器
图像编码器
注意力
电子设备
系统为您推荐了相关专利信息
实时图像
性能检测方法
数据采集频率
融合特征
分析风电机组
船舶检测方法
上下文特征
卷积特征
光学遥感图像
检测损失
跨模态
转换方法
深度学习网络提取
注意力机制
医学影像特征
深度学习网络
网络特征
超参数
深度学习神经网络
精度
视频帧
音频编码
视频编码器
大语言模型
采样模块