一种多模态视频数据与文本数据混合融合方法及系统

正文

推荐专利

申请号：CN202510997238

申请日期：2025-07-18

公开号：CN120850224A

公开日期：2025-10-28

类型：发明专利

摘要

本发明属于视频特征解析技术领域，尤其涉及一种多模态视频数据与文本数据混合融合方法及系统，包括：基础模态融合与语义引导的多模态融合；使用预训练的视觉特征编码器提取:视觉数据1、视觉数据2、视觉数据3；通过文本特征编码器提取:文本数据；使用彩色视频数据作为视觉数据1，深度数据作为视觉数据2，红外数据作为视觉数据3，这三类视觉数据在基础模态融合阶段将经过跨模态信息交互机制实现信息互补；随后，系统进入语义引导的多模态融合阶段，在这个阶段通过构建语义注意力权重，将文本语义特征动态映射到视觉特征空间，以此指导多模态视觉特征的融合过程。

技术关键词

融合方法多路径特征融合视觉特征文本多模态融合特征彩色视频数据信息交互机制编码器特征提取模块语义注意力注意力参数语义特征通道注意力机制

系统为您推荐了相关专利信息

基于多模态眼底图像的视网膜脱离分级方法及系统

支持向量机模型多模态 CRF模型坐标点生成结构

一种光伏板智能安装机器人的光伏板定位识别方法及系统

智能安装机器人光伏板定位识别方法视觉特征高清摄像头

基于多数据融合的风电机组齿轮箱故障判别方法及装置

风电机组齿轮箱判别方法卷积神经网络提取三通道判别装置

基于人工智能的虚拟电厂能源调度方法及系统

能源调度方法均衡策略充放电功率多模态特征电网频率偏差

基于视觉语言对应的AI生成全景图像质量评价方法与系统

生成全景图像图像块语言编码器文本评价方法

一种多模态视频数据与文本数据混合融合方法及系统

站点导航

APP 下载