摘要
本申请公开了一种文档理解方法及相关产品,该方法包括:获取待理解文档对应的图像和待查询问题;对所述待理解文档对应的图像进行处理,得到所述待理解文档对应的图像的多个候选框;将所述多个候选框和所述待理解文档对应的图像进行叠加处理,得到视觉提示图像;采用多模态大语言模型基于所述视觉提示图像,确定所述待查询问题对应的关键框,并基于所述关键框,得到查询结果;所述关键框表征满足预设条件的候选框。本申请将处理文档时“粗到细”的推理过程融入到多模态大语言模型中,使多模态大语言模型能够更精准地响应用户的指代性或结构化问题,提高多模态大语言模型在文档理解领域的准确性。
技术关键词
大语言模型
图像
视觉
多模态
答案
数据
掩码技术
处理器
计算机程序产品
分析工具
计算机设备
可读存储介质
模块
存储器
参数
布局
系统为您推荐了相关专利信息
HSV色彩空间
图像采集设备
判定方法
起重机主梁
降噪算法
医疗救援指挥系统
马拉松赛事
无人机避障
无人机多光谱
数字孪生
智能化巡检方法
故障巡检
热力图
巡检图像
特征值
字符识别模型
轧钢
系统集成模块
检测网络模型
多模型