摘要
本申请涉及多模态语义对齐领域,提供一种基于跨模态注意力机制的多模态数据语义对齐方法及装置。该方法包括:获取多模态数据及其对应的类别标签,并通过预先训练好的多模态编码器将多模态数据映射为多模态嵌入向量;根据多模态大语言模型生成与多模态数据对应的文本描述,并结合类别标签对文本描述进行筛选,构建多模态知识库;基于多模态知识库,构建多元嵌入中心;通过跨模态注意力机制,将多模态嵌入向量与所述文本描述进行交互,生成语义增强后的多模态嵌入向量;将所述语义增强后的多模态嵌入向量与多元嵌入中心进行对比学习,实现多模态数据的语义对齐。以此方式,增强了语义表征的准确性,且多模态数据在统一语义空间中的对齐效果显著。
技术关键词
多模态
大语言模型
语义
文本编码器
跨模态
对齐方法
标签
数据知识库
多头注意力机制
动态
基础
处理器
可读存储介质
矩阵
对齐装置
系统为您推荐了相关专利信息
定制设计方法
人机交互界面
数学模型
快速设计方法
产品设计技术
大语言模型
缓存管理方法
键值
物理
数据处理方法
CAN收发模块
多模态特征
测试方法
车辆功能测试技术
门控循环单元
蒙汉神经机器翻译方法
大语言模型
蒙古语
关键词
平行语料库
光电转台系统
状态机
子系统
验证控制逻辑
双轴同步控制