摘要
本发明公开了一种细胞亚群标签映射方法、系统、设备及存储介质。本发明在大规模未标记单细胞测序数据集上应用自监督学习能力,提高了模型通用性,从而能够有效克服单细胞测序数据中的批次效应。本发明对基因表达量进行离散化处理并进行编码,以减少不同实验条件下基因表达量变异的影响。本发明强化了转录因子的重要性,确保这些关键基因在区分细胞时的作用得到充分考虑。本发明通过基因表示嵌入和基因表达嵌入相结合的方式,不仅捕捉了单个基因的信息,还体现了基因之间的相互作用。同时,通过基于Linformer的自监督学习策略,模型能够从大量的单细胞数据中学习到基因表达的基本模式及其相互作用,从而有效地构建了单细胞基因全景。
技术关键词
标签映射方法
预训练模型
监督学习策略
编码
矩阵
基因表达数据
转录因子
处理器
生成记录
分类器
计算机程序产品
注意力机制
存储器
可读存储介质
模块
线性