基于多层次自适应语义增强的中文医疗命名实体识别方法和装置

正文

推荐专利

申请号：CN202410982954

申请日期：2024-07-22

公开号：CN118898252A

公开日期：2024-11-05

类型：发明专利

摘要

基于多层次自适应语义增强的中文医疗命名实体识别方法和装置，其方法包括：(1)将中文文本表示为T＝{C1、C2、···、CN}，构建字符Ci特征，包括字符特征、边界特征、部首特征、拼音特征；(2)通过ERNIE‑Health预训练模型将字符级别Ci的特征转化为向量表示，包括字符特征向量ec、边界特征向量eb、部首特征向量er、拼音特征向量ep；(3)将四种字符级特征输入字符层自适应语义增强模块。使用卷积层对字符特征进行压缩，通过门控机制和ReLU激活函数进行非线性转换，动态调整语义权重，使用多层感知机进行解压缩，得到增强后的字符级特征；(4)将增强后的字符级特征输入句子层自适应语义增强模块，通过压缩和解压缩机制自适应学习句子中不同字符的贡献；(5)将经过多层次自适应语义增强模块的增强特征输入BiLSTM‑CRF模块进行标签预测。本发明能够更好地捕捉上下文中的语义差异，解决了现有方法在特征权重分配上的局限性，提升了CNER任务的整体性能。

技术关键词

医疗命名实体识别方法字符多层次多层感知机语义特征边界特征矩阵拼音命名实体识别装置非线性机制中文文本模块动态处理器重构可读存储介质存储器标签

基于多层次自适应语义增强的中文医疗命名实体识别方法和装置

站点导航

APP 下载