摘要
本发明公开了一种基于全局‑局部感知动作目标生成视频描述的方法,包括步骤:数据准备,给定一段视频,2D、3D‑CNN从视频中提取的多模态特征;区域特征的抽取,目标检测器从输入视频片段中提取局部区域特征;特征编码,组件提取编码器Cxe映射一个区域特征;特征解码,组件提取‑解码器Cxd然后生成词性标记,即主题、谓词、对象;最后,训练生成视频描述内容。本方法克服现孤立的视频帧可能会受到运动模糊或遮挡的影响的问题,提升了视觉特征到语义特征转化准确性,最大程度产生最优的视频字幕描述,更精准的描述动作行为。
技术关键词
视频
模态特征
3DCNN模型
检测器
解码器
主题
编码器
时间序列信息
定位感兴趣
RGB特征
对象
序列特征
运动特征
注意力
字幕
场景
视觉特征
语义特征
自然语言
系统为您推荐了相关专利信息
数据传输装置
视频解码模块
主控模块
子系统
地面
医学图像分割方法
融合图像特征
三维医学图像数据
残差信息
切片