摘要
本发明公开了一种基于交互式局部注意力控制的分阶段OCR模型构建方法,解决了VIT模型识别率低的问题,属于计算机视觉领域;包括:将包含位置信息的OCR图像数据集作为训练集;构建任务需求对应的掩码矩阵;采用ViT模型作为基础模型,基于PAN和SPP形成本体特征图;基于掩码矩阵构建无效区域;划分为Patch并加入二维RoPE相对位置编码,通过Transformer Encoder送入Ernie自回归Decoder作键值,生成头为全连接LM Head,得到OCR模型;首阶段对训练集进行训练,次阶段对掩码矩阵进行训练,得到训练好的分阶段OCR模型;本发明提高了小目标识别能力。
技术关键词
掩码矩阵
多头注意力机制
模型构建方法
空间金字塔池化
分阶段
字符
分支
训练集
图像
前馈神经网络
分辨率
上下文特征
键值
编码
序列
层级
线性单元
尺寸
系统为您推荐了相关专利信息
智能动态负载
流量预测模型
多维时序数据
均衡方法
通道
人脸图像生成方法
图像生成模型
语义特征提取
文本特征向量
解码器
遥感器
动态缓冲区管理
操作系统优化
策略
队头阻塞
注意力机制
模型构建方法
模块
多层感知器
模型构建装置
恢复控制方法
类人机器人
多阶段
强化学习框架
关键帧