摘要
本发明提供一种模型训练、图文识别方法、装置、电子设备和存储介质,其中方法包括:基于初始识别模型的视觉分支和语义分支,分别提取样本图像的视觉特征和语义特征;基于字符一致但排序不同的多个样本图像的视觉特征之间的差异,确定视觉约束损失;基于语义一致的多个样本图像的语义特征之间的差异,和/或,语义相近的多个样本图像的语义特征之间的差异,确定语义约束损失;基于视觉约束损失,对视觉分支进行参数迭代,以及,基于语义约束损失,对语义分支进行参数迭代,基于参数迭代完成后的初始识别模型,确定训练完成的图文识别模型。本发明提供的方法、装置、电子设备和存储介质,保证了复杂场景下图文识别的语义合理性和识别准确性。
技术关键词
语义特征
模型训练方法
图文识别方法
视觉特征
图像
样本
分支
字符
图文识别装置
非暂态计算机可读存储介质
编码器
参数
电子设备
模型训练装置
特征提取单元
蒸馏
处理器
系统为您推荐了相关专利信息
玻璃缺陷检测方法
图像
玻璃缺陷检测系统
数据
初始聚类中心
光栅化图像
绘图仪
分块
打印驱动程序
图像数据处理
状态分布图
图像识别模块
分析模块
动态
旋耕深度
网络视频录像机
融合服务器
设备组
网络摄像机
像素点