摘要
本发明涉及细胞数据分析技术领域,公开了一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法,包括:获取单细胞RNA测序表达矩阵与对应的细胞文本描述,对单细胞RNA测序表达矩阵与对应的细胞文本描述进行预处理,构建多模态数据集,通过构建双模型与跨模态投射模块,实现了基因表达数据与文本知识的深度融合,避免了单一模态的局限,预处理时保留基因表达值与索引序列,改变了粗糙编码方式,提升了细胞类型识别准确率,基于对比学习、匹配学习及跨模态投射模块的预训练策略,实现了细粒度的跨模态信息交互与共享,优化了文本生成细胞或细胞生成文本等跨模态任务效果。
技术关键词
预训练语言模型
单细胞转录组数据
联合分析方法
文本
多模态
矩阵
跨模态
训练集
基因表达数据
样本
数据分析技术
序列
模块
索引
阶段
分类器
策略
参数