摘要
本发明公开了一种基于机器学习预测小分子化合物的人体健康毒性的方法,包括:从广泛来源获取数据集;对数据集进行整理;计算小分子化合物的分子描述符和分子指纹;分别以分子描述符、分子指纹以及分子描述符与分子指纹的组合作为输入,使用N种机器学习算法来构建QSAR模型,使得针对每个建模终点构建3N个QSAR模型;训练所述3N个QSAR模型;形成最优QSAR模型集合;以及将待测小分子化合物输入最优QSAR模型集合进行预测,从而得到待测小分子化合物的人体健康毒性。本发明确保数据来源的广泛性,通过定向整理规则确保数据的可靠性,以三种分子描述方式15种机器学习算法构建QSAR模型,能够较准确地预测小分子化合物的多种特定人体健康毒性。
技术关键词
小分子化合物
内分泌干扰物
人体健康
鼠伤寒沙门氏菌
雌激素干扰物
描述符
朴素贝叶斯
机器学习算法
指纹
雄激素
数据
终点
支持向量机
欧氏距离算法
网格搜索方法
径向基核函数
大鼠
多项式
系统为您推荐了相关专利信息
环境内分泌干扰物
数据整合分析方法
多组学数据整合分析
分布式爬虫框架
XML格式数据
慢性肾损伤
蛋白
小鼠模型
基因编辑载体
高血压肾病
彩色显示屏
智能体重秤
测试模块
信号线
测试端子