摘要
本申请提供了一种视频标注生成方法、装置及相关设备,方法包括:将获取的多个原始视频输入训练好的视频标注生成模型中;针对每个原始视频获取其视觉特征;基于视觉特征,获取实体表征、谓语表征和句子表征;将获取的句子表征分为偶数视频帧句子表征和奇数视频帧句子表征,并根据偶数视频帧句子表征和奇数视频帧句子表征采用对比学习的方式进行相似度矩阵监督;对各个原始视频的输出特征进行整合并获取用于生成字幕的聚合特征。本申请设计了三种视频编码器对时序细节和空间信息进行建模,这有助于从不同角度和粒度捕捉视频帧的特征,增强帧间信息的提取,避免帧间信息内容提取不充分。
技术关键词
视频帧
视觉特征
运动特征
生成方法
上下文特征
实体
输出特征
生成字幕
BiLSTM模型
计算机程序产品
注意力机制
解码模块
采样模块
视频编码器
处理器
矩阵
物体
电子设备
系统为您推荐了相关专利信息
面部图像特征
文本
头像生成方法
图像生成网络
随机噪声
数据生成模型
航空发动机故障
故障场景
多场景
数据分布