摘要
本发明公开了基于医疗字典知识增强的中文电子病历命名实体识别方法,首先收集中文电子病历医疗文本数据,并构造医疗字典,应用预训练语言模型RoBERTa‑wwm‑ext‑large对中文电子病历文本数据进行特征提取;然后将特征向量输入BiLSTM模型,学习医疗文本的上下文语义,同时查询医疗字典,设计掩码注意力机制,计算与字典中医疗概念相匹配的token的局部注意力权重,得到包含电子病历上下文信息的综合语义特征;最后利用全局指针网络模型GP同时考虑实体的头部和尾部的特征信息来预测嵌套实体,有效地解决中文电子病历命名实体识别任务中实体边界模糊和实体嵌套难以处理的问题。
技术关键词
中文电子病历
BiLSTM模型
字典
综合语义
预训练语言模型
概念
医疗文本数据
命名实体识别
双曲正切函数
注意力机制
非线性
编码
指针
系统为您推荐了相关专利信息
音乐生成方法
文本
注意力
多模态
长短期记忆网络
术语
多层注意力机制
电子病历数据
预训练语言模型
语义
互联网金融风控
数据库查询语句
业务系统
标签
字典
知识蒸馏技术
预训练语言模型
序列标注模型
中文事件抽取方法
事件触发词