处理视频数据的方法和装置

AITNT
正文
推荐专利
处理视频数据的方法和装置
申请号:CN202411844742
申请日期:2024-12-13
公开号:CN119693756A
公开日期:2025-03-25
类型:发明专利
摘要
本公开涉及一种处理视频数据的方法、训练神经网络的方法、处理视频数据的装置、电子设备及计算机可读存储介质。本公开实施例实现了像素级的视觉特征与文本特征在多语义层面的细粒度融合。在一个可选方面,本公开实施例在视觉特征与文本特征处理的早期阶段,以层次化的且细粒度的方式将文本特征与视觉特征进行融合。由此本公开的实施例能够充分地应用文本数据,大幅度地提升了RMOT任务的性能。在另一个可选方面,本公开实施例利用文本引导解码器,在解码过程中为查询提供先验语义信息,使得解码器能够更加充分地利用文本数据中的语义信息,提升待识别目标的嵌入的表现能力。
技术关键词
融合特征 识别特征 文本 视觉特征 查询特征 多模态 语义特征 视频帧 识别模块 数据 空间坐标信息 像素 样本 计算机可执行程序 训练神经网络 输入解码器
系统为您推荐了相关专利信息
1
一种基于大数据的企业税务分析系统
企业税务分析系统 大数据 协议文本解析 动态 数据采集模块
2
基于多模态和差异增强的胆管癌淋巴结钙化点检测方法
钙化点检测方法 胆管癌 多模态 实时检测系统 超声图像数据
3
查询系统的调整方法、装置、电子设备、介质及产品
查询策略 查询系统 模拟退火算法 电子设备 频率
4
一种基于扩散模型的数据和标签的生成方法及相关装置
图像 生成方法 标签 深度卷积神经网络模型 实例分割模型
5
一种在线智能图像加密方法及系统
图像加密方法 白名单 物体 图像加密算法 在线
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号