摘要
本发明公开了一种基于邻近连接Motif序列的Hi‑C数据质量评估方法Motif‑Hi‑C,包括:S1:Hi‑C数据存储fastq文件进行Motif的匹配;S2:进行原始Hi‑C数据存储fastq文件分类:根据限制性内切酶的酶切位点和Motif特性,将原始Hi‑C数据存储fastq文件进行分类,分类为matched.fastq和unmatched.fastq文件;S3:unmatched.fastq文件数据的降噪处理:对unmatched.fastq文件数据执行比对、过滤和去重步骤后,得到降噪的unmatched.fastq文件数据及评估结果;S4:matched.fastq文件数据模拟去重;S5:Hi‑C数据质量评估:将步骤S3中经降噪处理的unmatched.fastq文件数据评估结果与模拟去重后的matched.fastq文件数据评估结果进行合并,并计算有效互作数与总读取对的比值,通过该比值来评估Hi‑C数据质量。该方法为高通量Hi‑C测序数据分析提供了新的思路和方案,可以大大提高Hi‑C数据分析效率。
技术关键词
数据存储
AC自动机
KMP算法
高通量测序数据
序列
指针
字符
搜索数据结构
快速分析方法
数据分析效率
文件夹
程序
列表
思路
软件