一种文档理解方法及相关产品

AITNT
正文
推荐专利
一种文档理解方法及相关产品
申请号:CN202510796218
申请日期:2025-06-13
公开号:CN120705347A
公开日期:2025-09-26
类型:发明专利
摘要
本申请公开了一种文档理解方法及相关产品,该方法包括:获取待理解文档对应的图像和待查询问题;对所述待理解文档对应的图像进行处理,得到所述待理解文档对应的图像的多个候选框;将所述多个候选框和所述待理解文档对应的图像进行叠加处理,得到视觉提示图像;采用多模态大语言模型基于所述视觉提示图像,确定所述待查询问题对应的关键框,并基于所述关键框,得到查询结果;所述关键框表征满足预设条件的候选框。本申请将处理文档时“粗到细”的推理过程融入到多模态大语言模型中,使多模态大语言模型能够更精准地响应用户的指代性或结构化问题,提高多模态大语言模型在文档理解领域的准确性。
技术关键词
大语言模型 图像 视觉 多模态 答案 数据 掩码技术 处理器 计算机程序产品 分析工具 计算机设备 可读存储介质 模块 存储器 参数 布局
系统为您推荐了相关专利信息
1
一种大型复杂工件空间对齐实时判定方法、系统及装置
HSV色彩空间 图像采集设备 判定方法 起重机主梁 降噪算法
2
3D可视化医疗救援指挥系统
医疗救援指挥系统 马拉松赛事 无人机避障 无人机多光谱 数字孪生
3
将自然语言问题转换为SQL查询的方法、系统及设备
自然语言 SQL语法 样本 语句 大语言模型
4
一种发电场站智能化巡检方法及系统
智能化巡检方法 故障巡检 热力图 巡检图像 特征值
5
一种用于轧钢入炉方坯端面字符识别的方法
字符识别模型 轧钢 系统集成模块 检测网络模型 多模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号