一种多模态文档理解模型、训练方法、推理方法及设备

正文

推荐专利

申请号：CN202510475699

申请日期：2025-04-16

公开号：CN120375395A

公开日期：2025-07-25

类型：发明专利

摘要

本申请提供一种多模态文档理解模型、训练方法、推理方法及设备，利用权重冻结的第一视觉编码器提取全局视觉特征，增强模型对自然场景图像的理解能力，第二视觉编码器基于高分辨率文档图像和感兴趣区域信息提取细粒度特征，提高复杂文档的解析精度。信息交互模块结合用户输入的感兴趣区域位置，提升对特定区域的智能理解能力。特征融合模块在通道维度拼接多模态特征，使不同来源的视觉信息高效整合。线性层转换特征维度，使视觉特征适配大语言模型的输入需求，大语言模型结合视觉与文本信息，生成符合语义逻辑的文本理解结果。本模型通过双路视觉编码器结合用户对图文结构的文档图像的感兴趣区域选择，提升了文档信息细粒度解析、提取的能力。

技术关键词

全局视觉特征融合视觉特征推理方法自然场景图像特征金字塔网络大语言模型感兴趣文本理解深度卷积神经网络结构计算机程序指令原始文档图像图文细粒度特征多模态特征交织结构多尺度特征

系统为您推荐了相关专利信息

推理系统和推理方法

服务器集群共享内存池推理系统索引推理方法

基于航迹预训练大模型的航迹应用推理方法及系统

航迹数据推理方法语义特征构建代价函数样本

一种基于缓存辅助并行推测解码的大模型推理方法及系统

推理方法序列周期大语言模型解码

模型推理方法和装置

语义向量矩阵序列多头注意力机制推理方法

基于混合专家架构的分布式推理方法、装置、设备及介质

分布式推理方法智能车辆网关模块沙箱

一种多模态文档理解模型、训练方法、推理方法及设备

站点导航

APP 下载