摘要
基于多层次自适应语义增强的中文医疗命名实体识别方法和装置,其方法包括:(1)将中文文本表示为T={C1、C2、···、CN},构建字符Ci特征,包括字符特征、边界特征、部首特征、拼音特征;(2)通过ERNIE‑Health预训练模型将字符级别Ci的特征转化为向量表示,包括字符特征向量ec、边界特征向量eb、部首特征向量er、拼音特征向量ep;(3)将四种字符级特征输入字符层自适应语义增强模块。使用卷积层对字符特征进行压缩,通过门控机制和ReLU激活函数进行非线性转换,动态调整语义权重,使用多层感知机进行解压缩,得到增强后的字符级特征;(4)将增强后的字符级特征输入句子层自适应语义增强模块,通过压缩和解压缩机制自适应学习句子中不同字符的贡献;(5)将经过多层次自适应语义增强模块的增强特征输入BiLSTM‑CRF模块进行标签预测。本发明能够更好地捕捉上下文中的语义差异,解决了现有方法在特征权重分配上的局限性,提升了CNER任务的整体性能。
技术关键词
医疗命名实体识别方法
字符
多层次
多层感知机
语义特征
边界特征
矩阵
拼音
命名实体识别装置
非线性
机制
中文文本
模块
动态
处理器
重构
可读存储介质
存储器
标签