摘要
本申请公开一种文本识别的方法、模型训练方法、设备及存储介质,涉及光学字符识别技术领域,该方法包括:获取样本图像以及对应的标签文本框信息和标签文本信息;将样本图像输入到单视觉模型和残差网络模型,得到第一样本文本框信息和第一样本文本信息;将样本图像和处理要求输入到多模态AI大模型,得到第二样本文本框信息和第二样本文本信息;根据标签文本框信息、第一样本文本框信息、第二样本文本框信息、标签文本信息、第一样本文本信息和第二样本文本信息,确定蒸馏损失值,从而对文本识别模型的参数进行更新;将待识别图像输入到文本识别模型,得到文本识别结果。该方法能够提高文本识别的泛化能力,扩大文本识别的应用场景。
技术关键词
样本
标签文本
残差网络模型
文本识别模型
模型训练方法
图像
融合特征
注意力机制
光学字符识别技术
蒸馏
可读存储介质
存储计算机程序
计算机视觉
多模态
模块
存储器
系统为您推荐了相关专利信息
深静脉血栓
预测模型建立方法
多尺度特征融合
训练神经网络模型
预测模型建立装置
节点特征
脑网络特征
数据分析模型
两阶段
表型特征