一种文档理解方法及相关产品

正文

推荐专利

一种文档理解方法及相关产品

申请号：CN202510796218

申请日期：2025-06-13

公开号：CN120705347A

公开日期：2025-09-26

类型：发明专利

摘要

本申请公开了一种文档理解方法及相关产品，该方法包括：获取待理解文档对应的图像和待查询问题；对所述待理解文档对应的图像进行处理，得到所述待理解文档对应的图像的多个候选框；将所述多个候选框和所述待理解文档对应的图像进行叠加处理，得到视觉提示图像；采用多模态大语言模型基于所述视觉提示图像，确定所述待查询问题对应的关键框，并基于所述关键框，得到查询结果；所述关键框表征满足预设条件的候选框。本申请将处理文档时“粗到细”的推理过程融入到多模态大语言模型中，使多模态大语言模型能够更精准地响应用户的指代性或结构化问题，提高多模态大语言模型在文档理解领域的准确性。

技术关键词

大语言模型图像视觉多模态答案数据掩码技术处理器计算机程序产品分析工具计算机设备可读存储介质模块存储器参数布局

系统为您推荐了相关专利信息

一种大型复杂工件空间对齐实时判定方法、系统及装置

HSV色彩空间图像采集设备判定方法起重机主梁降噪算法

3D可视化医疗救援指挥系统

医疗救援指挥系统马拉松赛事无人机避障无人机多光谱数字孪生

将自然语言问题转换为SQL查询的方法、系统及设备

自然语言 SQL语法样本语句大语言模型

一种发电场站智能化巡检方法及系统

智能化巡检方法故障巡检热力图巡检图像特征值

一种用于轧钢入炉方坯端面字符识别的方法

字符识别模型轧钢系统集成模块检测网络模型多模型

一种文档理解方法及相关产品

站点导航

APP 下载