一种多模态视频数据与文本数据混合融合方法及系统

AITNT
正文
推荐专利
一种多模态视频数据与文本数据混合融合方法及系统
申请号:CN202510997238
申请日期:2025-07-18
公开号:CN120850224A
公开日期:2025-10-28
类型:发明专利
摘要
本发明属于视频特征解析技术领域,尤其涉及一种多模态视频数据与文本数据混合融合方法及系统,包括:基础模态融合与语义引导的多模态融合;使用预训练的视觉特征编码器提取:视觉数据1、视觉数据2、视觉数据3;通过文本特征编码器提取:文本数据;使用彩色视频数据作为视觉数据1,深度数据作为视觉数据2,红外数据作为视觉数据3,这三类视觉数据在基础模态融合阶段将经过跨模态信息交互机制实现信息互补;随后,系统进入语义引导的多模态融合阶段,在这个阶段通过构建语义注意力权重,将文本语义特征动态映射到视觉特征空间,以此指导多模态视觉特征的融合过程。
技术关键词
融合方法 多路径特征融合 视觉特征 文本 多模态 融合特征 彩色视频数据 信息交互机制 编码器 特征提取模块 语义注意力 注意力参数 语义特征 通道注意力机制
系统为您推荐了相关专利信息
1
基于多模态眼底图像的视网膜脱离分级方法及系统
支持向量机模型 多模态 CRF模型 坐标点 生成结构
2
一种光伏板智能安装机器人的光伏板定位识别方法及系统
智能安装机器人 光伏板 定位识别方法 视觉特征 高清摄像头
3
基于多数据融合的风电机组齿轮箱故障判别方法及装置
风电机组齿轮箱 判别方法 卷积神经网络提取 三通道 判别装置
4
基于人工智能的虚拟电厂能源调度方法及系统
能源调度方法 均衡策略 充放电功率 多模态特征 电网频率偏差
5
基于视觉语言对应的AI生成全景图像质量评价方法与系统
生成全景图像 图像块 语言编码器 文本 评价方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号