摘要
本申请实施例涉及信息技术基于OCR的任务处理方法、设备、介质及产品。方法包括:根据文档图像和视觉编码器,确定图像特征;通过连接器,将图像特征映射至解码器的文本空间;根据针对文档图像发出的文本指令,确定文本特征;根据解码器,对图像特征和所述文本特征进行融合,确定OCR的识别结果。可以至少用以解决传统OCR框架中各个模块相对独立,模块之间因衔接和误差累积带来的准确性降低,以及处理多种复杂任务时泛化能力不足的技术问题。
技术关键词
文本
解码器
局部注意力机制
多模态
计算机程序指令
视觉
图像
计算机程序产品
处理器
电子设备
参数
介质
格式
模块
存储器
线性
场景