摘要
本申请涉及药学数据管理领域,公开了一种药学数据集成方法及系统,包括以下步骤:S1.数据采集:从多源数据库中对数据进行采集;S2.数据格式化与标准化:使用唯一标识符生成算法将采集后不同格式的数据进行标准化;S3.针对非结构化文本使用CRF/NLP模型提取结构化表格:S4.跨源数据关联结果:建立匹配算法,通过匹配算法,使工作人员快速通过子图从统一的药学知识图谱中查询到匹配内容;S5.质量验证:在完成后,通过输入查询关键词或者子图进行测试,从而实现检测完善的目的。本发明通过设计唯一标识符生成算法,解决了CSV、XML、PDF、SDF等多格式数据的融合难题,确保分子结构、药物属性等关键信息的一致性与无歧义表达。
技术关键词
数据集成方法
生成算法
知识图谱构建
非结构化文本
数据采集模块
查询关键词
标识符
匹配查询方法
接口模块
代表
数据集成系统
构建知识图谱
术语
格式化
节点
异构
系统为您推荐了相关专利信息
路径规划方法
涂胶机器人
机器学习模型
控制涂胶
底壳
调频控制方法
协调控制策略
可再生能源
矩阵
功率
深度神经网络模型
车床热误差
补偿方法
指数加权移动平均值
训练深度神经网络
轨道交通设备
SNMP协议
预测系统
中心服务器
Viterbi算法