摘要
本发明公开了一种基于深度学习的基因组变异过滤方法和系统,在预处理阶段,采用五种不同的特征工程方法来生成数百种候选特征,基于基因组数据的现有特征,增强模型的学习和泛化能力。设计机器学习模型LightGBM筛选原始特征和候选特征的集合,并基于特征的重要性分数选择有价值的特征,以提升模型训练效率和预测性能,减少噪声对模型性能的影响。之后通过计算特征间的相关性矩阵,并结合层次聚类对特征进行分组和排序,可以有效识别并去除冗余特征,降低多重共线性的影响。这种方法优化了特征集,使得模型在保持高效预测能力的同时,具备更好的稳定性和泛化性能。最后,输入层由矩阵调整为单通道灰度图像,模型由迁移学习中的卷积神经网络模型的各项指标比较产生(ResNet34),通过更复杂的模型来得到更好的过滤性能,从而有效地提高了基因组变异过滤的精确度。
技术关键词
过滤方法
LightGBM模型
特征工程方法
斯皮尔曼等级相关系数
斯皮尔曼相关系数
聚类特征
K均值聚类算法
机器学习模型
矩阵
卷积神经网络模块
交互特征
梯度提升决策树
非线性
卷积神经网络模型
过滤系统
样本
点分配
数据
冗余特征
分箱