摘要
本发明提出一种基于部首表示学习的零样本汉字识别方法,包括以下步骤:建立零样本汉字识别数据集,获取汉字的表意描述序列;根据表意描述序列获取所有汉字的语义嵌入向量和所有部首及结构嵌入向量;汉字图像经过ResNet提取图像特征向量;图像特征向量经过特征增强编码模块得到增强特征;部首表示解码模块在部首及结构嵌入向量的引导下将增强特征转化为部首表示特征;汉字匹配模块利用部首表示特征和部首及结构嵌入向量预测语义嵌入向量,并与所有语义向量进行匹配以识别汉字。本发明通过减轻图像区域几何特征的纠缠问题,来提高图像特征向语义特征的可转移性,并利用部首嵌入学习和定位汉字图像中的关键部首表示,有效的提高未见汉字的识别能力。
技术关键词
汉字识别方法
图像深度特征
解码模块
编码模块
网格
样本
匹配模块
Word2Vec模型
图像特征向量
超参数
语义向量
ResNet网络
序列
多头注意力机制
二叉树结构
生成汉字