摘要
本发明提出一种基于多样特征生成的零样本汉字识别方法,解析汉字的部首组成获取表意描述序列;对表意描述序列进行混合语义嵌入获得多语义向量;对已见类汉字图像进行特征提取获取真实特征;构建特征生成网络学习多语义向量到真实特征的映射;通过已见类训练集进行训练后通过多种未见类语义向量生成未见类特征;利用未见类特征结合已见类训练集的特征共同训练识别模型使其具备识别已见类和未见类汉字能力。本发明通过混合语义嵌入提供多种语义来生成训练样本,有助于缓解合成特征的域迁移问题和特征混淆问题,提高特征生成的泛化能力和鲁棒性;通过为识别模型提供高质量的未见类特征,缓解零样本汉字识别的偏倚问题,提高了未见汉字的识别能力。
技术关键词
汉字识别方法
语义向量
生成特征
训练特征
训练识别模型
编码器
节点
序列
树状结构
网络
标签
约束生成器
图像
生成训练样本
损失函数优化
参数
系统为您推荐了相关专利信息
画像生成方法
语义向量
自然语言文本
患者
大语言模型
数字化管理系统
防爆设备
融合环境因素
分类特征
动态时间窗口
图像去阴影方法
图像增强模型
阴影检测模型
文本编码器
语义向量
组学特征
训练特征
影像
状态检测方法
模型训练方法