摘要
本发明涉及一种基于场景图增强的多模态大模型场景理解方法,属于跨模态信息融合与生成领域。首先,对输入图像进行预处理,将预处理图像传入开放词汇目标检测模型,获得图像内实体信息,生成有实体边界框与实体类别的图像;其次,将有边界框与实体类别的图像传入场景图生成模型,生成初步实体关系并传入逻辑大模型进行修正,得到修正的实体关系;接着,根据图像内实体以及修正的实体关系构建场景图并传入提示大模型,生成基于场景图的提示文本;最后,将提示文本与预处理后的图像一并输入多模态大模型中,多模态大模型根据提示文本理解图像信息,生成图像内场景的描述。本发明可以有效增强多模态大模型图像场景理解能力。
技术关键词
模型场景
图像
自然语言
多模态
文本理解
条件随机场
视觉特征
逻辑
实体间关系
三元组
语义
跨模态
像素
编码
颜色
尺寸
系统为您推荐了相关专利信息
智能解析方法
掌子面
卷积神经网络模型
构建卷积神经网络
岩体条件
图像生成模型
融合特征
模型训练方法
样本
池化特征