一种基于场景图增强的多模态大模型场景理解方法

正文

推荐专利

申请号：CN202411563370

申请日期：2024-11-05

公开号：CN119418339B

公开日期：2025-10-24

类型：发明专利

摘要

本发明涉及一种基于场景图增强的多模态大模型场景理解方法，属于跨模态信息融合与生成领域。首先，对输入图像进行预处理，将预处理图像传入开放词汇目标检测模型，获得图像内实体信息，生成有实体边界框与实体类别的图像；其次，将有边界框与实体类别的图像传入场景图生成模型，生成初步实体关系并传入逻辑大模型进行修正，得到修正的实体关系；接着，根据图像内实体以及修正的实体关系构建场景图并传入提示大模型，生成基于场景图的提示文本；最后，将提示文本与预处理后的图像一并输入多模态大模型中，多模态大模型根据提示文本理解图像信息，生成图像内场景的描述。本发明可以有效增强多模态大模型图像场景理解能力。

技术关键词

模型场景图像自然语言多模态文本理解条件随机场视觉特征逻辑实体间关系三元组语义跨模态像素编码颜色尺寸

系统为您推荐了相关专利信息

一种掌子面完整程度智能解析方法

智能解析方法掌子面卷积神经网络模型构建卷积神经网络岩体条件

一种虚拟人的应答交互操作方法

交互操作方法手势答案语音 AI服务器

一种针对地质剖面图图纸数字化的方法及系统

图纸表格元件图像分割数据归档

图像生成及其模型训练方法、设备、存储介质及程序产品

图像生成模型融合特征模型训练方法样本池化特征

利用隐形赋码实现多码关联的防伪防窜货的系统及方法

编码动态关联规则防伪码验证设备商品条码

一种基于场景图增强的多模态大模型场景理解方法

站点导航

APP 下载