摘要
本申请公开的一种数字细胞基础模型的构建方法,包括:输入单细胞转录测序数据以及相关的生物特征,分别编码并集成为细胞图的结点特征和边的特征;将形成的细胞图输入GNN,采用消息传递机制联合学习结点和边的特征表示;通过注意力机制学习细胞图中基因间的全局关系,并输出基因的特征表示;基于基因的特征表示,编码获取细胞特征向量。本申请的数字细胞基础模型CGCompass通过在五千万条人类单细胞测序数据上进行预训练,能够学习基因具有生物意义的信息及基因间相互作用的信息,可以通过微调和零样本推理两种方式有效完成细胞聚类、细胞分类、单基因扰动预测和bulk基因敲除预测等生物细胞下游任务。
技术关键词
结点
基因调控网络
基础
数据
消息传递机制
转录因子
关系
编码
节点更新
聚类
注意力机制
生物
样本
计算方法
多模态
染色体
分箱
身份