摘要
本发明涉及一种细颗粒的文档图像理解方法及系统,其中,该方法对输入的文档图像进行文本内容识别,获取所得到的文本序列中每一个字符的像素坐标,以此构建文本坐标映射表,通过BER分词器对文本序列进行Token级分词处理,根据文本坐标映射表对所得到的所有的Token级文本进行视觉编码和语言语义特征提取,得到所有的Token级视觉编码和所有的Token级语言语义特征,对文档图像进行patch分割,对所得到的每一个图像pacth进行视觉特征提取,计算所得到的每一个patch视觉特征与所有的Token级视觉编码的交集,将交集中的patch视觉特征与所有的Token级语言语义特征进行映射,并输入对比模型进行对齐,以此根据得到的对齐结果实现对文档图像的理解。由此,本发明实现细颗粒的文档图像理解。
技术关键词
图像理解方法
文本
字符
视觉特征提取
语义特征提取
编码
一致性检测
图像理解系统
序列
索引
多层次
坐标
多头注意力机制
局部特征提取
分词
基础