基于详细结构化信息的多图视觉大模型上下文推理方法及系统

正文

推荐专利

申请号：CN202510594772

申请日期：2025-05-09

公开号：CN120509483A

公开日期：2025-08-19

类型：发明专利

摘要

本发明公开了一种基于详细结构化信息的多图视觉大模型上下文推理方法及系统，包括：用户通过多图输入指令问答和少样本提示模型生成的输入范式输入图像与文本；提取图像部分，对每张图片生成详细描述场景图并用文本输出；获取图像对应详细描述场景图和输入文本部分，根据结构化文本信息提取提取用户的具体意图和关注的聚焦信息，并通过剪枝的方式表现于剪枝场景图上；结合剪枝后详细描述场景图，思维链推理以及输入文本和图像，通过多图大模型输出答复文本；本发明将相关信息通过描述的方式提供给多图大模型，显示的展现模型的思考过程，并通过图像到文本的压缩和特征剪枝保留强相关信息，实现高资源利用率高准确度的多图上下文理解推理。

技术关键词

上下文推理方法场景图像节点核心视觉信息处理推理系统图片实体间关系意图高资源利用率切割模块样本文本信息提取图文

系统为您推荐了相关专利信息

作物的承保方法、装置、设备及存储介质

深度学习模型承保方法风险数据图像

一种增强大语言模型三维空间理解的场景表征方法及装置

视觉大语言模型多层注意力机制表征方法桥接器

一种基于实例特征引导的视频车道线检测方法及系统

车道线检测方法多层次特征提取车道检测层级视频

一种云操作系统中资源池自动构建方法

自动构建方法云操作系统终端设备信息系统扇区

三电极气体传感器的性能优化方法、制备方法及三电极气体传感器阵列

气体传感器阵列电流值电极性能优化方法微米柱

基于详细结构化信息的多图视觉大模型上下文推理方法及系统

站点导航

APP 下载