一种多模态文档理解模型、训练方法、推理方法及设备

AITNT
正文
推荐专利
一种多模态文档理解模型、训练方法、推理方法及设备
申请号:CN202510475699
申请日期:2025-04-16
公开号:CN120375395A
公开日期:2025-07-25
类型:发明专利
摘要
本申请提供一种多模态文档理解模型、训练方法、推理方法及设备,利用权重冻结的第一视觉编码器提取全局视觉特征,增强模型对自然场景图像的理解能力,第二视觉编码器基于高分辨率文档图像和感兴趣区域信息提取细粒度特征,提高复杂文档的解析精度。信息交互模块结合用户输入的感兴趣区域位置,提升对特定区域的智能理解能力。特征融合模块在通道维度拼接多模态特征,使不同来源的视觉信息高效整合。线性层转换特征维度,使视觉特征适配大语言模型的输入需求,大语言模型结合视觉与文本信息,生成符合语义逻辑的文本理解结果。本模型通过双路视觉编码器结合用户对图文结构的文档图像的感兴趣区域选择,提升了文档信息细粒度解析、提取的能力。
技术关键词
全局视觉特征 融合视觉特征 推理方法 自然场景图像 特征金字塔网络 大语言模型 感兴趣 文本理解 深度卷积神经网络结构 计算机程序指令 原始文档图像 图文 细粒度特征 多模态特征 交织结构 多尺度特征
系统为您推荐了相关专利信息
1
推理系统和推理方法
服务器集群 共享内存池 推理系统 索引 推理方法
2
基于航迹预训练大模型的航迹应用推理方法及系统
航迹数据 推理方法 语义特征 构建代价函数 样本
3
一种基于缓存辅助并行推测解码的大模型推理方法及系统
推理方法 序列 周期 大语言模型 解码
4
模型推理方法和装置
语义向量 矩阵 序列 多头注意力机制 推理方法
5
基于混合专家架构的分布式推理方法、装置、设备及介质
分布式推理方法 智能车辆 网关 模块 沙箱
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号