一种基于全局-局部感知动作目标生成视频描述的方法

正文

推荐专利

申请号：CN202410780273

申请日期：2024-06-17

公开号：CN118609108A

公开日期：2024-09-06

类型：发明专利

摘要

本发明公开了一种基于全局‑局部感知动作目标生成视频描述的方法，包括步骤：数据准备，给定一段视频，2D、3D‑CNN从视频中提取的多模态特征；区域特征的抽取，目标检测器从输入视频片段中提取局部区域特征；特征编码，组件提取编码器Cxe映射一个区域特征；特征解码，组件提取‑解码器Cxd然后生成词性标记，即主题、谓词、对象；最后，训练生成视频描述内容。本方法克服现孤立的视频帧可能会受到运动模糊或遮挡的影响的问题，提升了视觉特征到语义特征转化准确性，最大程度产生最优的视频字幕描述，更精准的描述动作行为。

技术关键词

视频模态特征 3DCNN模型检测器解码器主题编码器时间序列信息定位感兴趣 RGB特征对象序列特征运动特征注意力字幕场景视觉特征语义特征自然语言

系统为您推荐了相关专利信息

一种基于多模态思维链的电影人声配音方法

配音方法语音生成模型多模态多语种语音人声

一种基于光纤通信的FPV无人机数据传输装置

数据传输装置视频解码模块主控模块子系统地面

一种基于分布式云的快速播放方法、装置、设备及介质

控制中心节点标识计算机设备数据

基于SAM的2.5D可提示医学图像分割方法及装置

医学图像分割方法融合图像特征三维医学图像数据残差信息切片

视觉媒体数据处理方法、程序产品、存储介质及电子设备

媒体数据处理方法视频视觉关键帧图像

一种基于全局-局部感知动作目标生成视频描述的方法

站点导航

APP 下载