一种基于语言感知的场景文字识别预训练方法及系统

正文

推荐专利

申请号：CN202510335613

申请日期：2025-03-20

公开号：CN120544176A

公开日期：2025-08-26

类型：发明专利

摘要

本发明涉及场景文字识别技术领域，提供了一种基于语言感知的场景文字识别预训练方法及系统。所述场景文字识别方法，包括：基于获取的输入图像，得到引导视图；分别对输入图像和引导视图进行分割，并分别排列后输入全连接层，得到输入图像嵌入表示和引导视图嵌入表示；对输入图像嵌入表示进行随机掩码，并将未掩码的图像补丁输入第一编码器，得到第一可见标记特征和第一CLS特征；将引导视图嵌入表示输入第二编码器，得到第二可见标记特征和第二CLS特征；基于第一可见标记特征，在对应掩码位置插入可学习的掩码标记，将插入掩码后的第一可见标记特征、第一CLS特征、第二可见标记特征和第二CLS特征输入解码器，得到预测结果。

技术关键词

标记特征预训练方法图像嵌入补丁输入解码器场景文字识别方法可读存储介质计算机程序产品预训练系统编码器模块图像处理模块处理器图像分割

系统为您推荐了相关专利信息

电力系统源荷预测方法及相关装置

电力系统变量归一化模块预测系统多层感知机

一种多模态掩码视频描述模型

补丁多模态编码模块标记视频

一种基于视觉大模型的缺陷数据集辅助标注方法

辅助标注方法缺陷预测视觉图像嵌入数据

一种基于单类学习的隐匿补丁定位方法

补丁样本漏洞定位方法语义

一种基于互联网信息技术的管理软件安全维护方法

互联网信息技术补丁漏洞管理软件身份验证

一种基于语言感知的场景文字识别预训练方法及系统

站点导航

APP 下载