摘要
本发明公开了一种基于转录因子基序预测scATAC‑seq中启动子片段的分类方法,它解决了现有技术中通过多组学整合来确定启动子的方式繁琐且效率低的问题。它包括通过分析同一组织中的多种组学数据,接着通过RNA表达量分析,筛选出前2000个高变基因。然后利用基因ID确定这些基因是否具有对应的RNA表达量,并找到这些基因的转录起始位点TSS处的scATAC‑seq序列,同时区分出非启动子区域的序列,并将启动子区域的序列分割成100bp的片段,以便进行后续的特征提取。随后利用motif特征对这些片段进行特征提取,建立预测模型,用于预测启动子区域。最后对预测模型进行评估,确保其具有良好的预测性能和准确性。本发明的优点在于:能够通过学习多组学数据可以准确快速的识别启动子区域。
技术关键词
启动子
转录因子
分类方法
序列
基因转录起始位点
标识符
数据
矩阵
建立预测模型
位置提取
训练集
编码向量
滤波器
批量
滑动窗口
频率
软件包
优化器