一种细颗粒的文档图像理解方法及系统

正文

推荐专利

一种细颗粒的文档图像理解方法及系统

申请号：CN202511497376

申请日期：2025-10-20

公开号：CN120976946B

公开日期：2025-12-30

类型：发明专利

摘要

本发明涉及一种细颗粒的文档图像理解方法及系统，其中，该方法对输入的文档图像进行文本内容识别，获取所得到的文本序列中每一个字符的像素坐标，以此构建文本坐标映射表，通过BER分词器对文本序列进行Token级分词处理，根据文本坐标映射表对所得到的所有的Token级文本进行视觉编码和语言语义特征提取，得到所有的Token级视觉编码和所有的Token级语言语义特征，对文档图像进行patch分割，对所得到的每一个图像pacth进行视觉特征提取，计算所得到的每一个patch视觉特征与所有的Token级视觉编码的交集，将交集中的patch视觉特征与所有的Token级语言语义特征进行映射，并输入对比模型进行对齐，以此根据得到的对齐结果实现对文档图像的理解。由此，本发明实现细颗粒的文档图像理解。

技术关键词

图像理解方法文本字符视觉特征提取语义特征提取编码一致性检测图像理解系统序列索引多层次坐标多头注意力机制局部特征提取分词基础

一种细颗粒的文档图像理解方法及系统

站点导航

APP 下载