摘要
本发明公开了一种基于极限提升树(XGBoost)算法的蛋白表达系统优选的模型,涉及蛋白表达领域,包括:针对大肠杆菌(E.coli)、毕赤酵母(Pichia P)、草地贪夜蛾细胞(sf9)、中国仓鼠卵巢细胞(CHO)等4种蛋白表达系统的所有蛋白序列信息,利用生物信息学软件分析相关蛋白序列和结构数据,经过数据预处理得到表达系统蛋白表征数据库,并将其划分为训练数据集和测试数据集;通过特征筛选和得到对区分蛋白表达系统有重要影响的特征,用于后续算法建模;利用重要特征数据和XGBoost算法对数据进行模型构建,针对算法进行超参数模型优化得到最优模型;进一步在验证集和测试集上对优化模型进行性能验证。本发明构建了一种基于XGBoost算法的的蛋白表达系统优选,该工具能过够评估目标蛋白和表达系统适配性,从而指导蛋白表达系统的选择。
技术关键词
蛋白表达系统
XGBoost模型
中国仓鼠卵巢细胞
训练集
特征数据库
分析工具
草地贪夜蛾
系统特征
算法
毕赤酵母
特征描述符
序列
超参数
曲线
靶标
系统为您推荐了相关专利信息
健康监测数据
公路结构
无标签数据
缺失值填充方法
标签数据处理
力学性能预测方法
随机森林
碳纤维复合材料
位置更新
搜索算法
多尺度特征提取
特征描述符
融合特征
图像
注意力
服务推荐模型
门控循环单元
分类模型构建
变压器模块
变压器模型