一种基于全局-局部感知动作目标生成视频描述的方法

AITNT
正文
推荐专利
一种基于全局-局部感知动作目标生成视频描述的方法
申请号:CN202410780273
申请日期:2024-06-17
公开号:CN118609108A
公开日期:2024-09-06
类型:发明专利
摘要
本发明公开了一种基于全局‑局部感知动作目标生成视频描述的方法,包括步骤:数据准备,给定一段视频,2D、3D‑CNN从视频中提取的多模态特征;区域特征的抽取,目标检测器从输入视频片段中提取局部区域特征;特征编码,组件提取编码器Cxe映射一个区域特征;特征解码,组件提取‑解码器Cxd然后生成词性标记,即主题、谓词、对象;最后,训练生成视频描述内容。本方法克服现孤立的视频帧可能会受到运动模糊或遮挡的影响的问题,提升了视觉特征到语义特征转化准确性,最大程度产生最优的视频字幕描述,更精准的描述动作行为。
技术关键词
视频 模态特征 3DCNN模型 检测器 解码器 主题 编码器 时间序列信息 定位感兴趣 RGB特征 对象 序列特征 运动特征 注意力 字幕 场景 视觉特征 语义特征 自然语言
系统为您推荐了相关专利信息
1
一种基于多模态思维链的电影人声配音方法
配音方法 语音生成模型 多模态 多语种语音 人声
2
一种基于光纤通信的FPV无人机数据传输装置
数据传输装置 视频解码模块 主控模块 子系统 地面
3
一种基于分布式云的快速播放方法、装置、设备及介质
控制中心 节点 标识 计算机设备 数据
4
基于SAM的2.5D可提示医学图像分割方法及装置
医学图像分割方法 融合图像特征 三维医学图像数据 残差信息 切片
5
视觉媒体数据处理方法、程序产品、存储介质及电子设备
媒体数据处理方法 视频 视觉 关键帧 图像
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号