摘要
本公开提供了视频摘要生成方法、模型训练方法、装置和存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习等技术领域。具体实现方案为:在获取用户针对目标视频所输入的摘要生成需求文本后,确定目标视频的第一视频帧序列的第一视频帧向量序列以及摘要生成需求文本的第一语句序列的第一语句向量序列,并对第一视频帧向量序列和第一语句向量序列进行融合,得到第一视频帧序列的第一融合特征向量序列,以及根据第一融合特征向量序列确定第一视频帧序列的第一重要性评分序列,并根据第一重要性评分序列,从第一视频帧序列中确定第一目标视频帧,以及根据第一目标视频帧生成目标视频的视频摘要。由此,提升了视频摘要生成的准确性。
技术关键词
视频帧
视频摘要模型
序列
语句
视频摘要生成方法
样本
文本
注意力
多模态
编码向量
时序
视频摘要生成装置
模型训练方法
生成提示词
矩阵
模块
处理器
系统为您推荐了相关专利信息
文本信息提取
证件
识别模型构建方法
信息提取模型
文本分类模型
时间序列预测方法
层次结构信息
时间序列预测系统
时间序列预测技术
节点
数据驱动方法
图灵机
数据驱动系统
大语言模型
线性