多模态文档理解方法及装置、电子设备

正文

推荐专利

多模态文档理解方法及装置、电子设备

申请号：CN202511078824

申请日期：2025-08-01

公开号：CN120894788A

公开日期：2025-11-04

类型：发明专利

摘要

本公开提供了一种多模态文档理解方法及装置、电子设备，涉及文档理解技术领域。该方法包括：从文档图像中提取初始特征图，并对初始特征图进行下采样，得到视觉数据单元；从初始特征图中提取文本区域的特征，基于Q‑Former结构模型对文本区域的特征和文档的文本数据单元进行处理，得到查询向量，查询向量用于从文本区域的特征和文本数据单元中提取与当前任务最相关的特征；将视觉数据单元、文本数据单元以及查询向量输入大语言模型进行处理，对文档进行理解。本公开解决了现有的多模态大语言模型文档理解技术存在视觉感知能力弱以及计算资源要求高的技术问题。

技术关键词

大语言模型文本检测模型数据理解技术多模态特征值注意力视觉采样点双线性插值法电子设备图像计算机程序产品处理器可读存储介质存储器模块坐标

系统为您推荐了相关专利信息

道路标识识别方法、装置、设备及存储介质

标识识别方法标识识别装置图像修复模型图像分割像素点

水力发电机组励磁系统在线监测与故障自诊断方法

水力发电机组励磁系统诊断方法故障分类模型灵敏度参数

不动产实体模型自动构建方法及装置

实体自动构建方法图元转换器语义

个性化儿童术后疼痛管理方法与系统

个性化疼痛管理深度神经网络管理方法医学影像信息疼痛管理系统

一种分段式PMLSM行程自检测方法

训练人工智能模型有限元仿真软件直线电机位置识别永磁

多模态文档理解方法及装置、电子设备

站点导航

APP 下载