摘要
本发明公开了一种基于自然语言处理的电子病历特征提取方法,包括:通过对原始电子病历文本进行清洗、医学术语规范化、中文分词和词性标注,生成预处理后的文本数据;利用微调医学语料的预训练BERT模型进行医疗实体识别,提取医疗实体集合;基于自注意力机制构建关系抽取模型,生成实体关系三元组集合;最终将提取的医疗实体和关系存储到图数据库中,提供API接口供查询和分析,从而有效解决了现有技术中对电子病历非结构化文本信息提取困难的问题。
技术关键词
BERT模型
自然语言
关系抽取模型
电子病历
医疗实体识别
三元组
中文分词
注意力机制
医学术语库
非结构化文本
序列
条件随机场
标签
生成关系
系统为您推荐了相关专利信息
生成系统
法律文本处理
知识图谱构建
实体间关系
数据库技术
移动通信网络
专用智能
模态特征
多模态
融合策略
自动识别方法
命名实体识别模型
文本信息传输
构建知识图谱
生成倒排索引