一种基于场景图增强的多模态大模型场景理解方法

AITNT
正文
推荐专利
一种基于场景图增强的多模态大模型场景理解方法
申请号:CN202411563370
申请日期:2024-11-05
公开号:CN119418339B
公开日期:2025-10-24
类型:发明专利
摘要
本发明涉及一种基于场景图增强的多模态大模型场景理解方法,属于跨模态信息融合与生成领域。首先,对输入图像进行预处理,将预处理图像传入开放词汇目标检测模型,获得图像内实体信息,生成有实体边界框与实体类别的图像;其次,将有边界框与实体类别的图像传入场景图生成模型,生成初步实体关系并传入逻辑大模型进行修正,得到修正的实体关系;接着,根据图像内实体以及修正的实体关系构建场景图并传入提示大模型,生成基于场景图的提示文本;最后,将提示文本与预处理后的图像一并输入多模态大模型中,多模态大模型根据提示文本理解图像信息,生成图像内场景的描述。本发明可以有效增强多模态大模型图像场景理解能力。
技术关键词
模型场景 图像 自然语言 多模态 文本理解 条件随机场 视觉特征 逻辑 实体间关系 三元组 语义 跨模态 像素 编码 颜色 尺寸
系统为您推荐了相关专利信息
1
一种掌子面完整程度智能解析方法
智能解析方法 掌子面 卷积神经网络模型 构建卷积神经网络 岩体条件
2
一种虚拟人的应答交互操作方法
交互操作方法 手势 答案 语音 AI服务器
3
一种针对地质剖面图图纸数字化的方法及系统
图纸 表格 元件 图像分割 数据归档
4
图像生成及其模型训练方法、设备、存储介质及程序产品
图像生成模型 融合特征 模型训练方法 样本 池化特征
5
利用隐形赋码实现多码关联的防伪防窜货的系统及方法
编码 动态关联规则 防伪码 验证设备 商品条码
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号