摘要
本说明书实施例提供了文档图像的处理方法及装置,其中,一种文档图像的处理方法包括:在文档图像的解析过程中,一方面对文档图像中的图像块进行特征提取获得图像特征,基于虚拟文本特征与图像特征进行注意力计算并根据获得的注意力权重和图像特征计算注意力图像特征,另一方面对文档图像的解析任务文本进行特征提取获得文本特征,将两方面获得的文本特征与注意力图像特征进行拼接获得拼接特征并输入大模型,由大模型的处理模块按照文本特征对注意力图像特征进行图像解析处理获得图像解析结果,以此在多模态特征拼接的基础上实现文档图像的解析。
技术关键词
注意力
大语言模型
图像块
图像编码器
拼接模块
计算机可执行指令
文本编码器
分辨率
滑动窗口
图像特征提取
特征提取模块
模态特征
可读存储介质
处理器
矩阵
元素