摘要
本发明公开了一种基于生僻字的标准化处理方法及系统,涉及字符识别处理技术领域,包括,获取输入文本数据进行预处理并统一文本数据格式,建立标准化字典表进行疑似生僻字标记;基于疑似生僻字标记提取多模态文字特征综合识别生僻字,转化已识别的生僻字,并将未识别的生僻字形成列表输出;展示生僻字识别结果并将识别结果进行存储。本发明通过获取用户输入文本数据进行预处理并标记疑似生僻字,降低生僻字识别处理量,提高识别效率,同时通过提取生僻字多模态特征向量进行生僻字综合识别,大幅提高生僻字识别准确性和灵活性,实现了生僻字的精准识别和提取。
技术关键词
字符
上下文特征
文字特征
拼音
文本
字典表
标记
二叉树结构
多模态
数据格式
生成工具
形态
特征提取模型
词向量模型
列表
常用汉字
分词算法
系统为您推荐了相关专利信息
冲突分析方法
语义特征提取
特征提取模块
语义分析模型
LSTM神经网络
数据关系分析方法
大语言模型
案件
自定义模型
BERT模型
分类器
半监督学习
旋转森林算法
置信度阈值
标签特征