摘要
本发明公开了一种基因测序数据质量评估方法、系统、设备及存储介质,其中方法包括步骤:根据基因测序样本数据进行样本集制作;将样本集中的数据进行归一化处理,并形成训练集和测试集;构建测序数据质量评估模型;采用训练集对构建的测序数据质量评估模型进行训练,并采用测试集对训练后的测序数据质量评估模型进行测试,获得训练完成的测序数据质量评估模型;将获取的基因测序数据输入训练完成的测序数据质量评估模型进行质量评估,输出质量评估结果。其显著效果是:能够有效识别样本污染、样本讲解、样本混杂等异常情况,对于具有不同协方差结构的数据,质量评估的性能和准确性更高且具有普适性。
技术关键词
基因测序数据
期望最大化算法
样本
单核苷酸多态性
深度值
特征值
特征提取单元
评估系统
聚类
矩阵
指标
模型训练模块
位点
处理器
计算机设备
输出模块