摘要
本申请提供了一种基于多相似度融合与大模型决策的多模态对齐方法及系统,涉及多模态对齐领域,方法包括:获取待匹配的图文对以及知识库中的图文对;对图文对进行特征编码,得到浅层特征和深层特征;构建多层次特征匹配模型并进行训练;将浅层特征和深层特征输入训练后的多层次特征匹配模型,得到语义相似度矩阵和结构相似度矩阵;通过设计的相似度融合与噪声平衡机制,计算语义相似度矩阵和结构相似度矩阵的相似度总分;将相似度总分大于预设值的图文对输入大模型中,从知识库中的图文对中确定与待匹配的图文对最相似的图文对。本申请的多模态匹配方法有较高的匹配精度。
技术关键词
图文
多层次特征
对齐方法
矩阵
注意力机制
文本
决策
语义
图片
模块
网络接口
跨模态
对齐系统
可读存储介质
设备通信
电子设备
存储器
计算机
噪声