摘要
本发明涉及场景文字识别技术领域,提供了一种基于语言感知的场景文字识别预训练方法及系统。所述场景文字识别方法,包括:基于获取的输入图像,得到引导视图;分别对输入图像和引导视图进行分割,并分别排列后输入全连接层,得到输入图像嵌入表示和引导视图嵌入表示;对输入图像嵌入表示进行随机掩码,并将未掩码的图像补丁输入第一编码器,得到第一可见标记特征和第一CLS特征;将引导视图嵌入表示输入第二编码器,得到第二可见标记特征和第二CLS特征;基于第一可见标记特征,在对应掩码位置插入可学习的掩码标记,将插入掩码后的第一可见标记特征、第一CLS特征、第二可见标记特征和第二CLS特征输入解码器,得到预测结果。
技术关键词
标记特征
预训练方法
图像嵌入
补丁
输入解码器
场景文字识别方法
可读存储介质
计算机程序产品
预训练系统
编码器模块
图像处理模块
处理器
图像分割