摘要
本发明公开了一种基于蛋白质语言模型和排序损失的蛋白质突变优化方法,所述方法包括:构建饱和突变数据集;初始化参数;利用蛋白质嵌入模型生成蛋白质序列的高维嵌入表示;首轮筛选中,根据突变选择策略选择饱和突变进行筛选;之后的每一轮筛选中,引入Bradley‑Terry排序损失函数到极限梯度提升算法中,选择预测活性值最高的突变进行筛选;检查筛选轮数以确定是否结束,若未达到最大筛选轮数,返回进行下一轮筛选,否则结束筛选过程;得到高活性突变集合;本发明克服了传统方法因实验成本高昂和样本生成耗时导致的样本不足问题,支持多目标优化,如同时提升活性、稳定性和表达水平。
技术关键词
排序损失
策略
突变体
构建决策树
序列
数据
样本
算法
连续型
节点
标签
参数
编码
元素
动态