摘要
一种基于长读长测序的单倍型差异甲基化区域识别方法,本发明涉及生物信息学和表观遗传学领域,具体涉及基于长读长测序的单倍型差异甲基化区域识别方法。本发明的目的是为了解决现有方法对长读长测序的单倍型差异甲基化区域的识别存在准确率低、适用性差、资源消耗大、时间成本高的问题。过程为:获取每个人的已排序的且比对的BAM文件;对BAM文件进行数据清洗,得到带有甲基化状态CpG位点信息的文件;提取带有甲基化状态CpG位点信息的文件中每个CpG位点的特征;将提取的每个CpG位点的特征输入训练好的长短时记忆网络,训练好的长短时记忆网络模型输出每个CpG位点的分型结果;识别3输出的文件中每个CpG位点的分型结果的单倍型差异甲基化区域。
技术关键词
位点
区域识别方法
长读长测序
种子
软件
网络
三代测序平台
回归方法
损失函数优化
参数
测序芯片
电信号
人类
索引
训练集
增强子
优化器
数据
启动子
定义