基于详细结构化信息的多图视觉大模型上下文推理方法及系统

AITNT
正文
推荐专利
基于详细结构化信息的多图视觉大模型上下文推理方法及系统
申请号:CN202510594772
申请日期:2025-05-09
公开号:CN120509483A
公开日期:2025-08-19
类型:发明专利
摘要
本发明公开了一种基于详细结构化信息的多图视觉大模型上下文推理方法及系统,包括:用户通过多图输入指令问答和少样本提示模型生成的输入范式输入图像与文本;提取图像部分,对每张图片生成详细描述场景图并用文本输出;获取图像对应详细描述场景图和输入文本部分,根据结构化文本信息提取提取用户的具体意图和关注的聚焦信息,并通过剪枝的方式表现于剪枝场景图上;结合剪枝后详细描述场景图,思维链推理以及输入文本和图像,通过多图大模型输出答复文本;本发明将相关信息通过描述的方式提供给多图大模型,显示的展现模型的思考过程,并通过图像到文本的压缩和特征剪枝保留强相关信息,实现高资源利用率高准确度的多图上下文理解推理。
技术关键词
上下文推理方法 场景 图像 节点 核心 视觉 信息处理 推理系统 图片 实体间关系 意图 高资源利用率 切割模块 样本 文本信息提取 图文
系统为您推荐了相关专利信息
1
作物的承保方法、装置、设备及存储介质
深度学习模型 承保方法 风险 数据 图像
2
一种增强大语言模型三维空间理解的场景表征方法及装置
视觉 大语言模型 多层注意力机制 表征方法 桥接器
3
一种基于实例特征引导的视频车道线检测方法及系统
车道线检测方法 多层次特征提取 车道检测 层级 视频
4
一种云操作系统中资源池自动构建方法
自动构建方法 云操作系统 终端设备 信息系统 扇区
5
三电极气体传感器的性能优化方法、制备方法及三电极气体传感器阵列
气体传感器阵列 电流值 电极 性能优化方法 微米柱
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号