摘要
本发明提供一种基于机器学习的化合物数据库标注方法、系统及设备,其中,方法包括:从化合物数据库中提取化合物特征,并获取化合物在多种分子对接软件中的性能数据;基于机器学习算法和多种分类算法,根据所述化合物特征和性能数据构建得到分子对接软件选择模型,所述分子对接软件选择模型用于生成与化合物适配的推荐分子对接软件;将所述分子对接软件选择模型部署到目标化合物数据库中,对目标化合物数据库中的化合物进行批量标注,生成推荐分子对接软件和对应的置信度。本发明能够实现对大规模化合物的自动标注,软件推荐的准确性和效率高,且具备系统可扩展性,通用性强。
技术关键词
标注方法
软件
分子
机器学习算法
描述符
分布式计算框架
物理化学特征
特征工程
拓扑结构特征
杂化碳原子
批量
数据
指纹
标注系统
近邻算法
特征提取模块
版本更新
处理器
旋转键