摘要
一种采用渐近式搜索MSA的蛋白质系综预测方法,首先,给定目标蛋白质序列,使用MMSeqs生成MSA。然后,使用DBSCAN方法对每个MSA进行聚类,生成多个子MSA;对于聚类失败的MSA,采用高斯混合模型(GMM)进行期望最大化(EM)聚类;接着,使用BLAST序列比对方法,从每个子MSA中选出相似度最高的序列,再次利用MMSeqs生成新的MSA,将所有子MSA合并为一个新的MSA,去除完全相同的序列,并对长度不一致的序列使用MAFFT添加GAP;处理后的MSA再次聚类,最终输入AlphaFold2生成蛋白质系综。本发明有效利用MSA共进化信息以预测蛋白质动态系综。
技术关键词
序列比对方法
高斯混合模型
概率密度函数
聚类
协方差矩阵
数据
邻域
参数
核苷酸
家族
校正
蛋白
因子
核心
指标
代表
动态
系统为您推荐了相关专利信息
电子元器件
数据库构建方法
引脚功能
数据库构建系统
矩阵
智能调控方法
液晶显示屏
数据
聚类
显示调节技术