摘要
本发明提供一种基于零样本学习的指称视频目标分割方法及系统,属于目标识别技术领域,获取待分割的指称视频数据;利用预先训练好的指称视频目标分割模型对获取的指称视频数据进行处理,得到最终的目标分割结果。本发明基于零样本学习的多粒度特征融合的指称视频目标分割深度学习网络模型,引入多粒度视觉特征提取模块,包括目标粒度视觉特征提取阶段、帧粒度视觉特征提取阶段以及视频粒度特征提取阶段;目标粒度视觉特征提取阶段整合了视频帧的全局语义信息,帧粒度的视觉特征提取阶段能够使视觉模态和文本模态进一步对齐,视频粒度的视觉特征提取阶段能够有效提取视频中的运动线索,增强了视觉特征表示,多粒度的视觉特征有效提升了分割的性能。
技术关键词
视觉特征提取
视频
分割方法
非暂态计算机可读存储介质
特征提取模块
动作识别模型
文本
匹配模块
样本
深度学习网络模型
处理器
运动特征
存储器
注意力机制
掩模
阶段
电子设备
分割系统
物体
系统为您推荐了相关专利信息
视频纹理
智能系统
数据采集模块
数学模型
数据分析模块
检测网络模型
无人机
特征融合网络
空间金字塔池化
支持多标签
视频内容保护方法
视频帧
感知哈希算法
图像
标记
模型训练方法
文本
评标方法
元素
非暂态计算机可读存储介质