摘要
本公开涉及一种处理视频数据的方法、训练神经网络的方法、处理视频数据的装置、电子设备及计算机可读存储介质。本公开实施例实现了像素级的视觉特征与文本特征在多语义层面的细粒度融合。在一个可选方面,本公开实施例在视觉特征与文本特征处理的早期阶段,以层次化的且细粒度的方式将文本特征与视觉特征进行融合。由此本公开的实施例能够充分地应用文本数据,大幅度地提升了RMOT任务的性能。在另一个可选方面,本公开实施例利用文本引导解码器,在解码过程中为查询提供先验语义信息,使得解码器能够更加充分地利用文本数据中的语义信息,提升待识别目标的嵌入的表现能力。
技术关键词
融合特征
识别特征
文本
视觉特征
查询特征
多模态
语义特征
视频帧
识别模块
数据
空间坐标信息
像素
样本
计算机可执行程序
训练神经网络
输入解码器
系统为您推荐了相关专利信息
企业税务分析系统
大数据
协议文本解析
动态
数据采集模块
钙化点检测方法
胆管癌
多模态
实时检测系统
超声图像数据
图像
生成方法
标签
深度卷积神经网络模型
实例分割模型