摘要
本发明公开了一种基于详细结构化信息的多图视觉大模型上下文推理方法及系统,包括:用户通过多图输入指令问答和少样本提示模型生成的输入范式输入图像与文本;提取图像部分,对每张图片生成详细描述场景图并用文本输出;获取图像对应详细描述场景图和输入文本部分,根据结构化文本信息提取提取用户的具体意图和关注的聚焦信息,并通过剪枝的方式表现于剪枝场景图上;结合剪枝后详细描述场景图,思维链推理以及输入文本和图像,通过多图大模型输出答复文本;本发明将相关信息通过描述的方式提供给多图大模型,显示的展现模型的思考过程,并通过图像到文本的压缩和特征剪枝保留强相关信息,实现高资源利用率高准确度的多图上下文理解推理。
技术关键词
上下文推理方法
场景
图像
节点
核心
视觉
信息处理
推理系统
图片
实体间关系
意图
高资源利用率
切割模块
样本
文本信息提取
图文
系统为您推荐了相关专利信息
视觉
大语言模型
多层注意力机制
表征方法
桥接器
车道线检测方法
多层次特征提取
车道检测
层级
视频
自动构建方法
云操作系统
终端设备
信息系统
扇区
气体传感器阵列
电流值
电极
性能优化方法
微米柱