基于跨模态注意力机制的多模态数据语义对齐方法及装置

AITNT
正文
推荐专利
基于跨模态注意力机制的多模态数据语义对齐方法及装置
申请号:CN202511228563
申请日期:2025-08-29
公开号:CN120724398A
公开日期:2025-09-30
类型:发明专利
摘要
本申请涉及多模态语义对齐领域,提供一种基于跨模态注意力机制的多模态数据语义对齐方法及装置。该方法包括:获取多模态数据及其对应的类别标签,并通过预先训练好的多模态编码器将多模态数据映射为多模态嵌入向量;根据多模态大语言模型生成与多模态数据对应的文本描述,并结合类别标签对文本描述进行筛选,构建多模态知识库;基于多模态知识库,构建多元嵌入中心;通过跨模态注意力机制,将多模态嵌入向量与所述文本描述进行交互,生成语义增强后的多模态嵌入向量;将所述语义增强后的多模态嵌入向量与多元嵌入中心进行对比学习,实现多模态数据的语义对齐。以此方式,增强了语义表征的准确性,且多模态数据在统一语义空间中的对齐效果显著。
技术关键词
多模态 大语言模型 语义 文本编码器 跨模态 对齐方法 标签 数据知识库 多头注意力机制 动态 基础 处理器 可读存储介质 矩阵 对齐装置
系统为您推荐了相关专利信息
1
一种模糊需求驱动的产品定制设计方法及系统
定制设计方法 人机交互界面 数学模型 快速设计方法 产品设计技术
2
大语言模型的键值缓存管理、模型推理和数据处理方法及装置
大语言模型 缓存管理方法 键值 物理 数据处理方法
3
一种视频回灌测试方法及系统
CAN收发模块 多模态特征 测试方法 车辆功能测试技术 门控循环单元
4
一种基于大语言模型的多维提示优化的蒙汉神经机器翻译方法
蒙汉神经机器翻译方法 大语言模型 蒙古语 关键词 平行语料库
5
一种二维光电转台系统架构设计优化方法
光电转台系统 状态机 子系统 验证控制逻辑 双轴同步控制
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号