多模态文档理解方法及装置、电子设备

AITNT
正文
推荐专利
多模态文档理解方法及装置、电子设备
申请号:CN202511078824
申请日期:2025-08-01
公开号:CN120894788A
公开日期:2025-11-04
类型:发明专利
摘要
本公开提供了一种多模态文档理解方法及装置、电子设备,涉及文档理解技术领域。该方法包括:从文档图像中提取初始特征图,并对初始特征图进行下采样,得到视觉数据单元;从初始特征图中提取文本区域的特征,基于Q‑Former结构模型对文本区域的特征和文档的文本数据单元进行处理,得到查询向量,查询向量用于从文本区域的特征和文本数据单元中提取与当前任务最相关的特征;将视觉数据单元、文本数据单元以及查询向量输入大语言模型进行处理,对文档进行理解。本公开解决了现有的多模态大语言模型文档理解技术存在视觉感知能力弱以及计算资源要求高的技术问题。
技术关键词
大语言模型 文本检测模型 数据 理解技术 多模态 特征值 注意力 视觉 采样点 双线性插值法 电子设备 图像 计算机程序产品 处理器 可读存储介质 存储器 模块 坐标
系统为您推荐了相关专利信息
1
道路标识识别方法、装置、设备及存储介质
标识识别方法 标识识别装置 图像修复模型 图像分割 像素点
2
水力发电机组励磁系统在线监测与故障自诊断方法
水力发电机组 励磁系统 诊断方法 故障分类模型 灵敏度参数
3
不动产实体模型自动构建方法及装置
实体 自动构建方法 图元 转换器 语义
4
个性化儿童术后疼痛管理方法与系统
个性化疼痛管理 深度神经网络 管理方法 医学影像信息 疼痛管理系统
5
一种分段式PMLSM行程自检测方法
训练人工智能模型 有限元仿真软件 直线电机 位置识别 永磁
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号