一种基于交互式局部注意力控制的分阶段OCR模型构建方法

正文

推荐专利

申请号：CN202511096036

申请日期：2025-08-06

公开号：CN120997845A

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开了一种基于交互式局部注意力控制的分阶段OCR模型构建方法，解决了VIT模型识别率低的问题，属于计算机视觉领域；包括：将包含位置信息的OCR图像数据集作为训练集；构建任务需求对应的掩码矩阵；采用ViT模型作为基础模型，基于PAN和SPP形成本体特征图；基于掩码矩阵构建无效区域；划分为Patch并加入二维RoPE相对位置编码，通过Transformer Encoder送入Ernie自回归Decoder作键值，生成头为全连接LM Head，得到OCR模型；首阶段对训练集进行训练，次阶段对掩码矩阵进行训练，得到训练好的分阶段OCR模型；本发明提高了小目标识别能力。

技术关键词

掩码矩阵多头注意力机制模型构建方法空间金字塔池化分阶段字符分支训练集图像前馈神经网络分辨率上下文特征键值编码序列层级线性单元尺寸

系统为您推荐了相关专利信息

一种基于多维监测数据的智能动态负载均衡方法及系统

智能动态负载流量预测模型多维时序数据均衡方法通道

一种人脸图像生成方法、系统、装置和存储介质

人脸图像生成方法图像生成模型语义特征提取文本特征向量解码器

一种无线遥感器响应延迟的优化方法、装置及设备

遥感器动态缓冲区管理操作系统优化策略队头阻塞

一种预训练大模型构建方法及其装置

注意力机制模型构建方法模块多层感知器模型构建装置

基于多阶段课程学习的类人机器人跌倒恢复控制方法

恢复控制方法类人机器人多阶段强化学习框架关键帧

一种基于交互式局部注意力控制的分阶段OCR模型构建方法

站点导航

APP 下载