摘要
本发明提供一种基于对比学习的多模态手写汉字纠错网络架构,包括:基于对比学习的预训练模块,表意文字描述序列生成模块以及汉字纠错模块;本发明充分利用汉字本身具有的图像特征和语义特征,发挥了多模态特征的互补优势,实现对手写汉字的准确识别,可以对从未见过的汉字进行识别,而无需预先知道该汉字可能属于的类别集合;本发明提出的方法基于生成,对汉字的结构和部首有着根本的理解,可以识别出一个从未见过的、甚至是写错的汉字的结构与部首;无需收集并标注错字数据集,降低了人工和成本,适合推广。
技术关键词
表意文字
手写汉字图像
文本编码器
网络架构
图像编码器
序列特征
纠错模块
字符
标识符
图像全局特征
损失函数设计
多模态
字典
正确汉字
解码器