一种基于交互式局部注意力控制的分阶段OCR模型构建方法

AITNT
正文
推荐专利
一种基于交互式局部注意力控制的分阶段OCR模型构建方法
申请号:CN202511096036
申请日期:2025-08-06
公开号:CN120997845A
公开日期:2025-11-21
类型:发明专利
摘要
本发明公开了一种基于交互式局部注意力控制的分阶段OCR模型构建方法,解决了VIT模型识别率低的问题,属于计算机视觉领域;包括:将包含位置信息的OCR图像数据集作为训练集;构建任务需求对应的掩码矩阵;采用ViT模型作为基础模型,基于PAN和SPP形成本体特征图;基于掩码矩阵构建无效区域;划分为Patch并加入二维RoPE相对位置编码,通过Transformer Encoder送入Ernie自回归Decoder作键值,生成头为全连接LM Head,得到OCR模型;首阶段对训练集进行训练,次阶段对掩码矩阵进行训练,得到训练好的分阶段OCR模型;本发明提高了小目标识别能力。
技术关键词
掩码矩阵 多头注意力机制 模型构建方法 空间金字塔池化 分阶段 字符 分支 训练集 图像 前馈神经网络 分辨率 上下文特征 键值 编码 序列 层级 线性单元 尺寸
系统为您推荐了相关专利信息
1
一种基于多维监测数据的智能动态负载均衡方法及系统
智能动态负载 流量预测模型 多维时序数据 均衡方法 通道
2
一种人脸图像生成方法、系统、装置和存储介质
人脸图像生成方法 图像生成模型 语义特征提取 文本特征向量 解码器
3
一种无线遥感器响应延迟的优化方法、装置及设备
遥感器 动态缓冲区管理 操作系统优化 策略 队头阻塞
4
一种预训练大模型构建方法及其装置
注意力机制 模型构建方法 模块 多层感知器 模型构建装置
5
基于多阶段课程学习的类人机器人跌倒恢复控制方法
恢复控制方法 类人机器人 多阶段 强化学习框架 关键帧
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号