摘要
本发明公开一种多模态大语言模型的跨模态对齐方法及装置,涉及多模态对齐技术领域,方法包括:获取图像进行目标检测,生成局部图像细粒度特征;获取文本,提取文本特征,抽取文本实体关系,得到实体关系依赖树,作为文本实体关系图;对局部图像细粒度特征和文本特征进行局部细粒度语义对齐;使用场景图模型获取图像中检测目标之间的视觉关系图;对文本实体关系图和视觉关系图进行图结构对齐和图语义对齐;融合语义对齐特征和图对齐特征,得到具有丰富细粒度的语义对齐特征,以及全局的语义对齐特征和更加丰富的关系对齐特征,并输入至多模态大模型。本发明实现了对不同模态数据在不同特征维度上的对齐,使得不同模态数据进行准确关联。
技术关键词
大语言模型
细粒度特征
文本
对齐方法
多模态
对齐装置
节点
视觉
融合语义
实体关系抽取
对齐模块
BERT模型
图像处理模块
数据
注意力机制
系统为您推荐了相关专利信息
智能定位方法
可见光图像
热点
伪影
融合多模态信息
草莓病害
视觉问答方法
视觉问答模型
视角
多模态
智能温控床垫
多模态
柔性传感器阵列
矩阵
床垫表面
信息生成方法
字幕
信息生成程序
视频
语音识别模型