摘要
本发明公开了一种融合语义生成辅助的跨模态匹配方法、系统及设备,具体涉及跨模态匹配领域,其技术要点为:根据文本特征、图像特征、文本关注特征和图像关注特征计算出初始图像与初始文本之间的跨模态相似度;将图像特征输入到Transformer模型的文本解码器中得到图像特征对应的文本生成特征,将文本特征输入到Transformer模型的图像解码器中得到文本特征对应的图像生成特征;利用交叉注意力机制计算文本生成特征与文本特征的文本模态内相似度,以及图像生成特征与图像特征的图像模态内相似度;基于跨模态相似度、图像模态内相似度和文本模态内相似度构建匹配判定分数,基于匹配判断分数对初始图像和初始文本进行匹配。
技术关键词
文本
融合语义
生成特征
交叉注意力机制
图像解码器
跨模态
特征提取模块
系统存储器
矩阵
编码器
匹配模块
处理器
计算机设备
可读存储介质
系统为您推荐了相关专利信息
数据分析模型
大语言模型
文本
节点
加权随机游走
智能生成方法
案件
图谱
卷积神经网络模型优化
规则提取算法