摘要
本发明涉及一种基于泛癌多组学数据的无监督特征选择方法,属于生物信息学领域,包括选择数据集及数据预处理;通过改进的谱聚类算法对S1得到的数据进行聚类,得到特征子集A;构建深度自动编码器,将S1得到的数据输入深度自动编码器得到特征子集B;对于特征子集B中的每一个特征,与特征子集A中所有特征计算Pearson相关系数,Pearson相关系数最高的特征Am作为结果,并在特征子集A中删除;评估最终得到的特征子集。本发明利用深度自动编码器指导的改进谱聚类无监督特征选择算法对未标记具体亚型的癌症样本做无监督特征选择,从中选择出对后续聚类分型有作用的重要基因特征,简化系统并提高亚型分类的准确性和可靠性。
技术关键词
监督特征选择方法
深度自动编码器
Pearson相关系数
轮廓系数
解码器
拉普拉斯
TCGA数据库
分析验证方法
样本
聚类
特征选择算法
重构
指数
矩阵
转录组学
基因
简化系统
系统为您推荐了相关专利信息
音频特征
输出特征
时域卷积网络
加权特征
语音特征
强化学习模型
工厂设备
强化学习框架
时空注意力机制
设备运行数据
生成对抗网络
学习训练方法
客户端
注意力机制
解码器
手语特征
运动特征
视觉特征
手语翻译方法
训练神经网络