摘要
本申请提供了一种视频标注生成方法、装置及相关设备,方法包括:将获取的多个原始视频输入训练好的视频标注生成模型中;针对每个原始视频获取其视觉特征;基于视觉特征,获取实体表征、谓语表征和句子表征;将获取的句子表征分为偶数视频帧句子表征和奇数视频帧句子表征,并根据偶数视频帧句子表征和奇数视频帧句子表征采用对比学习的方式进行相似度矩阵监督;对各个原始视频的输出特征进行整合并获取用于生成字幕的聚合特征。本申请设计了三种视频编码器对时序细节和空间信息进行建模,这有助于从不同角度和粒度捕捉视频帧的特征,增强帧间信息的提取,避免帧间信息内容提取不充分。
技术关键词
视频帧
视觉特征
运动特征
生成方法
上下文特征
实体
输出特征
生成字幕
BiLSTM模型
计算机程序产品
注意力机制
解码模块
采样模块
视频编码器
处理器
矩阵
物体
电子设备
系统为您推荐了相关专利信息
综合电力系统
节点
配电网络
生成方法
供电路径分析
生成对抗网络模型
场景生成系统
风力发电场
遗传算法
风机
导航路径生成方法
三维地理坐标
自动收割机
网格特征
三维点云数据
样式
页面生成方法
动态
计算机可读指令
标签特征