摘要
本申请公开了一种语义理解驱动的跨模态信息融合与检索方法及系统,通过获取文本、图像及音频原始数据,分别通过深度神经网络提取各模态初始特征集合;基于注意力机制动态分配各模态权重系数,对初始特征集合加权融合,得到跨模态融合特征表示;通过跨模态语义关联分析模型,从融合特征表示中提取高维语义关联特征,生成语义增强特征向量;基于该向量构建跨模态语义图网络,对缺失模态特征补全,生成优化后的多模态特征集合;将优化后的特征集合与查询样本输入对比学习模型,计算语义相似度得分,根据得分生成跨模态检索结果排序列表。
技术关键词
跨模态融合特征
语义
模态特征
深度神经网络
注意力机制
邻域特征
检索方法
降噪特征
多语言
文本
节点
生成二值化
音频
热力图
矩阵
覆盖率
系统为您推荐了相关专利信息
作业调度方法
多头注意力机制
序列
队列
神经网络模型
规则推理方法
实体
遗忘机制
推理规则
注意力机制
大语言模型
语义
知识图谱构建方法
构建知识图谱
实体
多模态特征融合
信息检测方法
文本特征向量
通信管理模块
IM软件