一种细颗粒的文档图像理解方法及系统

AITNT
正文
推荐专利
一种细颗粒的文档图像理解方法及系统
申请号:CN202511497376
申请日期:2025-10-20
公开号:CN120976946B
公开日期:2025-12-30
类型:发明专利
摘要
本发明涉及一种细颗粒的文档图像理解方法及系统,其中,该方法对输入的文档图像进行文本内容识别,获取所得到的文本序列中每一个字符的像素坐标,以此构建文本坐标映射表,通过BER分词器对文本序列进行Token级分词处理,根据文本坐标映射表对所得到的所有的Token级文本进行视觉编码和语言语义特征提取,得到所有的Token级视觉编码和所有的Token级语言语义特征,对文档图像进行patch分割,对所得到的每一个图像pacth进行视觉特征提取,计算所得到的每一个patch视觉特征与所有的Token级视觉编码的交集,将交集中的patch视觉特征与所有的Token级语言语义特征进行映射,并输入对比模型进行对齐,以此根据得到的对齐结果实现对文档图像的理解。由此,本发明实现细颗粒的文档图像理解。
技术关键词
图像理解方法 文本 字符 视觉特征提取 语义特征提取 编码 一致性检测 图像理解系统 序列 索引 多层次 坐标 多头注意力机制 局部特征提取 分词 基础
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号