一种多模态大语言模型的跨模态对齐方法及装置

正文

推荐专利

申请号：CN202411623927

申请日期：2024-11-14

公开号：CN119580269A

公开日期：2025-03-07

类型：发明专利

摘要

本发明公开一种多模态大语言模型的跨模态对齐方法及装置，涉及多模态对齐技术领域，方法包括：获取图像进行目标检测，生成局部图像细粒度特征；获取文本，提取文本特征，抽取文本实体关系，得到实体关系依赖树，作为文本实体关系图；对局部图像细粒度特征和文本特征进行局部细粒度语义对齐；使用场景图模型获取图像中检测目标之间的视觉关系图；对文本实体关系图和视觉关系图进行图结构对齐和图语义对齐；融合语义对齐特征和图对齐特征，得到具有丰富细粒度的语义对齐特征，以及全局的语义对齐特征和更加丰富的关系对齐特征，并输入至多模态大模型。本发明实现了对不同模态数据在不同特征维度上的对齐，使得不同模态数据进行准确关联。

技术关键词

大语言模型细粒度特征文本对齐方法多模态对齐装置节点视觉融合语义实体关系抽取对齐模块 BERT模型图像处理模块数据注意力机制

系统为您推荐了相关专利信息

图文检索模型获取方法、设备及存储介质

模型获取方法图像块图文生成训练数据索引

基于红外图像的固体废物异常温度智能定位方法

智能定位方法可见光图像热点伪影融合多模态信息

一种基于改进LLaVA的草莓病害多模态视觉问答方法

草莓病害视觉问答方法视觉问答模型视角多模态

一种基于多模态传感与自适应学习的智能温控床垫系统

智能温控床垫多模态柔性传感器阵列矩阵床垫表面

视频字幕信息生成方法、装置、设备、存储介质及程序产品

信息生成方法字幕信息生成程序视频语音识别模型

一种多模态大语言模型的跨模态对齐方法及装置

站点导航

APP 下载