摘要
本发明公开一种基于机器学习筛选新型PFASs替代品的方法,首先从PubChem数据库获取PFASs分子数据集,包括原始PFASs分子SMILES数据集和短链PFASs数据集,并分别进行预处理,前者去除重复、空白数据,过滤无效SMILES字符串并标准化,后者筛选含H3开头危险说明代码、去除空白危险说明代码数据;接着利用RDKit生成新PFASs分子,构建短链PFASs危险说明代码分类模型,通过10倍交叉验证的随机搜索对模型超参数调优,再用精确度、召回率和F1‑score评估模型;然后将新生成的短链PFASs分子输入模型,预测危险说明代码,筛选出符合特定危险说明代码的低毒性替代品;最后将分子SMILES字符串转化为分子描述符,根据分子量等指标选出符合预设性能指标的候选物。本发明中的筛选方法高效、准确、成本低。
技术关键词
随机森林模型
分子
数据
超参数
梯度提升机
描述符
多层感知机
支持向量机
筛选方法
化学式
小叶
有效性
指标
元素
供体
受体
格式
标签
节点
系统为您推荐了相关专利信息
带式输送机
自动控制方法
数字孪生模型
周期
速度
时序特征
智能车载终端
数据采集方法
深度学习网络模型
数据采集系统