摘要
本发明涉及汉字文本识别领域,且公开了一种融合汉字特征和词对关系的命名实体识别方法,包括字符嵌入与原始BERT保持一致,不进行任何修改;将每个汉字进行24*24的图形向量化,然后将其拼接后再拉平,送入一个字形融合层得到字形嵌入向量;对于拼音嵌入,使用开源的PyPinyin包将输入的字符序列转换为相应的拼音序列,每个字符的拼音序列由罗马字符和四个声调组成;将字符嵌入、字形嵌入和拼音嵌入拼接在一起,送入一个融合层;将融合嵌入与位置嵌入和片段嵌入相加,形成BERT模型的输入,本发明具备弥补了汉字特征信息的缺失问题,还增强了模型处理嵌套和不连续实体的能力的优点。
技术关键词
命名实体识别方法
汉字特征
卷积模块
BERT模型
拼音
关系
字符
命名实体识别系统
字形特征
网格
嵌套
序列
解码
LSTM模型
编码
多层感知机
文本识别
语义
系统为您推荐了相关专利信息
破损检测方法
货车地板
输出特征
特征提取模块
注意力机制
Siamese网络
实体标识符
规范化方法
知识图谱构建
融合算法
卷积模块
多层特征融合
输入端
残差归一化
补全方法
命名实体识别模型
语义
命名实体识别方法
识别命名实体
编码特征
事理图谱
BERT模型
铁路
语义角色标注
辅助决策方法