摘要
本公开提供了一种多模态文档理解方法及装置、电子设备,涉及文档理解技术领域。该方法包括:从文档图像中提取初始特征图,并对初始特征图进行下采样,得到视觉数据单元;从初始特征图中提取文本区域的特征,基于Q‑Former结构模型对文本区域的特征和文档的文本数据单元进行处理,得到查询向量,查询向量用于从文本区域的特征和文本数据单元中提取与当前任务最相关的特征;将视觉数据单元、文本数据单元以及查询向量输入大语言模型进行处理,对文档进行理解。本公开解决了现有的多模态大语言模型文档理解技术存在视觉感知能力弱以及计算资源要求高的技术问题。
技术关键词
大语言模型
文本检测模型
数据
理解技术
多模态
特征值
注意力
视觉
采样点
双线性插值法
电子设备
图像
计算机程序产品
处理器
可读存储介质
存储器
模块
坐标
系统为您推荐了相关专利信息
标识识别方法
标识识别装置
图像修复模型
图像分割
像素点
水力发电机组
励磁系统
诊断方法
故障分类模型
灵敏度参数
个性化疼痛管理
深度神经网络
管理方法
医学影像信息
疼痛管理系统
训练人工智能模型
有限元仿真软件
直线电机
位置识别
永磁