基于邻近连接Motif序列的Hi-C数据质量快速评估方法Motif-Hi-C及应用

AITNT
正文
推荐专利
基于邻近连接Motif序列的Hi-C数据质量快速评估方法Motif-Hi-C及应用
申请号:CN202510413063
申请日期:2025-04-03
公开号:CN119920309B
公开日期:2025-07-04
类型:发明专利
摘要
本发明公开了一种基于邻近连接Motif序列的Hi‑C数据质量评估方法Motif‑Hi‑C,包括:S1:Hi‑C数据存储fastq文件进行Motif的匹配;S2:进行原始Hi‑C数据存储fastq文件分类:根据限制性内切酶的酶切位点和Motif特性,将原始Hi‑C数据存储fastq文件进行分类,分类为matched.fastq和unmatched.fastq文件;S3:unmatched.fastq文件数据的降噪处理:对unmatched.fastq文件数据执行比对、过滤和去重步骤后,得到降噪的unmatched.fastq文件数据及评估结果;S4:matched.fastq文件数据模拟去重;S5:Hi‑C数据质量评估:将步骤S3中经降噪处理的unmatched.fastq文件数据评估结果与模拟去重后的matched.fastq文件数据评估结果进行合并,并计算有效互作数与总读取对的比值,通过该比值来评估Hi‑C数据质量。该方法为高通量Hi‑C测序数据分析提供了新的思路和方案,可以大大提高Hi‑C数据分析效率。
技术关键词
数据存储 AC自动机 KMP算法 高通量测序数据 序列 指针 字符 搜索数据结构 快速分析方法 数据分析效率 文件夹 程序 列表 思路 软件
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号