摘要
本发明涉及一种基于单核苷酸多态性的微生物测序样本污染菌识别方法。包括以下步骤:步骤S1,通过BWA比对软件,得到比对的BAM文件,并对BAM文件进行排序;步骤S2,基于BAM文件,输出每一个测序短读段在参考基因组上每一个位点的比对信息,并提取每条短读段序列中所存在的SNP和InDel信息;步骤S3,计算SNP相似度指标和SNP相异度指标;步骤S4,将相似度与相异度其作为机器学习中RandomForest分类算法的核心输入特征,建立一个三分类器模型;步骤S5,对污染定植混合菌中的定植菌丰富度进行量化评估;步骤S6,进行模型判定结果的置信度评分。本发明提供一种更为精确的方法来区分样本中污染序列和真实定植序列,并能够有效估算那些可能既是污染菌又是定植菌的微生物的丰度。
技术关键词
多态性位点
单核苷酸多态性
识别方法
样本
分类器模型
量化评估方法
指标计算方法
定位点
序列
混合菌
代表
核心
软件
算法
度量
校正
系统为您推荐了相关专利信息
多模态数据融合
图像分类方法
加权特征
矩阵
动态权重分配
辐射源
识别系统
时域特征提取
频域特征提取
网络模块