摘要
本发明公开了一种实现国际疾病分类的自动编码方法,从医疗数据库中获取电子病历数据,并对数据进行初步清洗;提取电子病历文本,与医生诊断的ICD编码关联,构建训练数据集;构建多元知识库,包括UMLS同义词库、非结构化知识库和利用LLM生成辅助知识库;构建ICD编码模型,包括上下文编码模块、辅助知识筛选模块、多重注意力交互模块以及融合预测模块;采用二元交叉熵损失函数优化ICD编码模型,实现国际疾病分类的自动编码。本发明能有效捕捉文本与代码之间的多层次语义交互,提高对复杂文本不同层次语义信息的区分能力和编码精度;能够更准确地提取关键信息,提升复杂病例和模糊诊断场景下的编码质量。
技术关键词
自动编码方法
文本
交叉注意力机制
损失函数优化
同义词库
电子病历数据
语义需求
编码模块
疾病
条目
低频标签
上下文特征
筛选算法