摘要
本发明属于电子病历技术领域,具体公开了一种医学文本命名实体识别方法及系统,该方法采集原始医学文本并作为DLBC的输入,将预训练语言模型作为DLBC的嵌入层对原始医学文本分词处理,将文本转换为字符序列,再将字符序列送入预训练语言模型,生成对应的字符向量表示;使用语料库提取医学名词和类别,构建包含多类别医学名词的领域词典;使用多头注意力机制,得到特征序列;利用双向长短期记忆网络Bi LSTM,对特征序列进行特征提取,上下文信息建模;使用线性层将Bi LSTM的输出转换为每个字符对应的NER标签概率分布,应用联合解码策略CRF得到最终的识别结果。采用本技术方案,利用领域词典提供的外部信息,进行实体嵌入增强,提升医学实体识别准确率。
技术关键词
双向长短期记忆网络
医学
命名实体识别模型
多头注意力机制
命名实体识别系统
文本
字符
序列
数据采集单元
词典
条件随机场
标签
处理单元
电子病历技术
预训练语言模型
分词
系统为您推荐了相关专利信息
水工结构
卷积神经网络模块
双向长短期记忆网络
皮尔逊相关系数
超参数
时序特征
预测系统
数据分类
空间特征提取
医学影像数据
协作策略
矩阵
高频特征
主成分分析算法
多模型协同
肺癌驱动基因
深度学习模型
矩阵
双向长短期记忆网络
预测装置
夹具机器人
圆柱形外壳
夹具主体
磁控胶囊
传感器