摘要
本说明书实施例提供了文档图像的处理方法及装置,其中,一种文档图像的处理方法包括:在文档图像的解析过程中,一方面对文档图像中的图像块进行特征提取获得图像特征,基于虚拟文本特征与图像特征进行注意力计算并根据获得的注意力权重和图像特征计算注意力图像特征,另一方面对文档图像的解析任务文本进行特征提取获得文本特征,将两方面获得的文本特征与注意力图像特征进行拼接获得拼接特征并输入大模型,由大模型的处理模块按照文本特征对注意力图像特征进行图像解析处理获得图像解析结果,以此在多模态特征拼接的基础上实现文档图像的解析。
技术关键词
注意力
图像块
滑动窗口
拼接模块
计算机可执行指令
文本编码器
图像编码器
分辨率
图像特征提取
特征提取模块
模态特征
可读存储介质
处理器
矩阵
元素
语义
系统为您推荐了相关专利信息
剩余寿命预测模型
多尺度卷积神经网络
阶段
连续点
滚动轴承
多模态数据采集
实训模块
策略
条件生成对抗网络
噪声强度系数