一种基于语言感知的场景文字识别预训练方法及系统

AITNT
正文
推荐专利
一种基于语言感知的场景文字识别预训练方法及系统
申请号:CN202510335613
申请日期:2025-03-20
公开号:CN120544176A
公开日期:2025-08-26
类型:发明专利
摘要
本发明涉及场景文字识别技术领域,提供了一种基于语言感知的场景文字识别预训练方法及系统。所述场景文字识别方法,包括:基于获取的输入图像,得到引导视图;分别对输入图像和引导视图进行分割,并分别排列后输入全连接层,得到输入图像嵌入表示和引导视图嵌入表示;对输入图像嵌入表示进行随机掩码,并将未掩码的图像补丁输入第一编码器,得到第一可见标记特征和第一CLS特征;将引导视图嵌入表示输入第二编码器,得到第二可见标记特征和第二CLS特征;基于第一可见标记特征,在对应掩码位置插入可学习的掩码标记,将插入掩码后的第一可见标记特征、第一CLS特征、第二可见标记特征和第二CLS特征输入解码器,得到预测结果。
技术关键词
标记特征 预训练方法 图像嵌入 补丁 输入解码器 场景文字识别方法 可读存储介质 计算机程序产品 预训练系统 编码器模块 图像处理模块 处理器 图像分割
系统为您推荐了相关专利信息
1
电力系统源荷预测方法及相关装置
电力系统 变量 归一化模块 预测系统 多层感知机
2
一种多模态掩码视频描述模型
补丁 多模态 编码模块 标记 视频
3
一种基于视觉大模型的缺陷数据集辅助标注方法
辅助标注方法 缺陷预测 视觉 图像嵌入 数据
4
一种基于单类学习的隐匿补丁定位方法
补丁 样本 漏洞 定位方法 语义
5
一种基于互联网信息技术的管理软件安全维护方法
互联网信息技术 补丁 漏洞 管理软件 身份验证
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号