摘要
本申请涉及一种视频信息摘要生成方法、装置、电子装置和存储介质,其中,该视频信息摘要生成方法包括:获取初始视频和预设的针对目标对象的文字描述;将初始视频和文字描述输入至训练后的开放世界目标检测模型进行关键帧检测,得到初始视频中包含目标对象的关键帧;对若干帧的关键帧进行聚类,得到初始视频信息摘要;将初始视频信息摘要输入至图片‑文本提取单元提取文本描述,得到初始视频信息摘要的图片文本描述;将初始视频信息摘要的图片文本描述与初始视频信息摘要输入至视频‑文本语义对齐单元进行语义对齐,得到对齐后的视频特征表示;将对齐后的视频特征表示输入至文本生成单元,得到目标视频信息摘要。提高了文本摘要内容的正确性。
技术关键词
摘要生成方法
视频
关键帧
文本生成器
图片
聚类
对齐模块
摘要生成装置
电子装置
语义
网络
对象
K近邻
图文
处理器
度量
可读存储介质
系统为您推荐了相关专利信息
运动主体
巡检场景
三维彩色点云
模型重建方法
激光雷达
动作特征
语义特征提取
融合特征
注意力机制
空间特征信息
三角形面片
更新方法
点云
三维位置信息
计算机可执行程序
行人检测方法
图像增强网络
注意力机制
金字塔池化
多尺度信息