摘要
本发明公开了基于注意力机制的中文电子病历命名实体识别方法,首先收集中文电子病历医疗数据,构造医疗字典,应用微调后的预训练语言模型RoBERTa‑wwm‑ext‑large进行特征提取并输入BiLSTM模型,学习医疗文本的上下文语义;然后查询医疗字典,设计基于医疗概念的局部注意力机制,计算与字典中医疗概念相匹配的局部注意力权重;根据每个词所属的医疗概念,构造图神经网络,计算该词的图聚合表示,作为该词的位置嵌入,融合每个词的上下文表示与注意力表示,得到综合语义特征;最后利用全局指针网络来预测嵌套实体,解决了中文电子病历命名实体识别任务中实体边界模糊和实体嵌套难以处理的问题。
技术关键词
中文电子病历
BiLSTM模型
综合语义
字典
概念
文本
双曲正切函数
局部注意力机制
节点
邻居
预训练语言模型
命名实体识别
非线性
数据