一种多模态大语言模型的跨模态对齐方法及装置

AITNT
正文
推荐专利
一种多模态大语言模型的跨模态对齐方法及装置
申请号:CN202411623927
申请日期:2024-11-14
公开号:CN119580269A
公开日期:2025-03-07
类型:发明专利
摘要
本发明公开一种多模态大语言模型的跨模态对齐方法及装置,涉及多模态对齐技术领域,方法包括:获取图像进行目标检测,生成局部图像细粒度特征;获取文本,提取文本特征,抽取文本实体关系,得到实体关系依赖树,作为文本实体关系图;对局部图像细粒度特征和文本特征进行局部细粒度语义对齐;使用场景图模型获取图像中检测目标之间的视觉关系图;对文本实体关系图和视觉关系图进行图结构对齐和图语义对齐;融合语义对齐特征和图对齐特征,得到具有丰富细粒度的语义对齐特征,以及全局的语义对齐特征和更加丰富的关系对齐特征,并输入至多模态大模型。本发明实现了对不同模态数据在不同特征维度上的对齐,使得不同模态数据进行准确关联。
技术关键词
大语言模型 细粒度特征 文本 对齐方法 多模态 对齐装置 节点 视觉 融合语义 实体关系抽取 对齐模块 BERT模型 图像处理模块 数据 注意力机制
系统为您推荐了相关专利信息
1
图文检索模型获取方法、设备及存储介质
模型获取方法 图像块 图文 生成训练数据 索引
2
基于红外图像的固体废物异常温度智能定位方法
智能定位方法 可见光图像 热点 伪影 融合多模态信息
3
一种基于改进LLaVA的草莓病害多模态视觉问答方法
草莓病害 视觉问答方法 视觉问答模型 视角 多模态
4
一种基于多模态传感与自适应学习的智能温控床垫系统
智能温控床垫 多模态 柔性传感器阵列 矩阵 床垫表面
5
视频字幕信息生成方法、装置、设备、存储介质及程序产品
信息生成方法 字幕 信息生成程序 视频 语音识别模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号