摘要
本申请的实施例提供了一种多模态的视频摘要标记方法及相关设备。该多模态的视频摘要标记方法包括:获取待标记视频的视频流信息和音频流信息;对视频流信息和音频流信息进行特征融合,得到统一嵌入向量;将统一嵌入向量输入摘要生成模型,得到视频摘要文本,视频摘要文本包括总结摘要文本以及分段摘要文本;将各分段摘要文本标记于对应的视频段中,得到已标记视频段;将总结摘要文本标记于待标记视频上,得到已标记视频。本申请实施例的技术方案通过特征融合,视频和音频信息能够在统一的向量空间中进行处理,避免了信息丢失,提高了信息融合的准确性和完整性。
技术关键词
摘要
标记方法
视频段
文本
视频流
分段
多模态
音频
标记装置
视觉特征
语义特征
网络
处理器
事件识别
计算机程序产品
模块
存储装置
分支
系统为您推荐了相关专利信息
事件触发器
前馈神经网络
标签
节点
联合信息抽取方法
文本识别模型
训练样本图像
视觉特征提取
网络
文本识别方法