摘要
本发明属于图像识别技术领域,具体涉及一种字体自适应汉字识别方法,为了解决汉字部首频次分布不平衡导致低频次部首识别不准确的技术问题,同时兼顾模型对于多种字体数据的泛化能力和维持可接受的数据标注成本,本发明提供一种“基于部首检测与拆分的字体自适应汉字识别方法”,增加弱监督学习模块,通过有部首位置标签信息数据和无部首位置标签信息数据间的对比学习,实现针对未标注数据的弱监督学习,避免对多种字体进行部首位置标注,降低人工数据标注成本,提高模型对多种字体的泛化能力。
技术关键词
汉字识别方法
弱监督学习
字体
标签
字符
数据
残差模块
焦点损失函数
检测网络模型
输出特征
非线性
图像识别技术
超参数
上采样
矩形
坐标