摘要
本发明公开了深度NLP模型用于医药文档关键信息提取的系统及方法,涉及自然语言处理技术领域,本方法包括以下步骤:收集多源数据,清洗噪声并依标准术语库对齐,构建原始语料库、标准化实体词典以及关键信息本体库;用预训练模型BioBERT对标注数据集适配调整,根据任务训练多任务NLP模型,基于高频术语优化模型权重;以优化模型处理新文档,经阈值过滤、聚类分析,专家验证后更新本体库,补充新术语及标注;混合新旧标注数据,用EWC算法增量更新模型;解析新文档,构建动态医药知识图谱。本发明能够有效改善现有技术中领域新知识和新术语无法快速纳入模型导致模型难以及时更新的情况。
技术关键词
术语
医药知识图谱
知识图谱构建
动态知识图谱
增量更新
输入端
文本编码器
数据采集单元
模型更新
词典
模块
多任务
实体
支持增量训练
预训练模型
语义向量
注意力
系统为您推荐了相关专利信息
大语言模型
知识图谱构建
数据采集单元
样本
参数更新模块
智能会议系统
会议信息处理方法
AI服务器
语音识别模块
客户端
知识图谱构建方法
差分隐私技术
保护敏感信息
BERT模型
更新知识图谱
匹配推送方法
大数据
企业内部数据
实体识别模型
企业画像