摘要
本发明公开了一种用于解析基因组着丝粒区域结构的注释方法,属于生物基因技术领域。要前提。本发明首先基于一种启发式策略来分析着丝粒序列的重复单体,针对着丝粒序列进行判定。当串联重复单元被识别,基于串联重复单元信息得到一个邻接矩阵,并将HORs的解析问题转换为在邻接矩阵中寻找特定结构的图论问题,并结合一种滑动窗口策略细化HORs的结构解析结果。与现有技术相比,本发明可以更准确的检测出串联重复单元的长度,有效的克服了TRASH将两个连续的串联重复单元识别成单一的串联重复单元的弱点。本发明具有明显的效率优势。在分析人类基因组着丝粒区域时,本发明在保证精度的同时比当前的方法快了10倍。
技术关键词
注释方法
分解算法
列表
生物基因技术
启发式策略
标签
元素
重复性
重复序列
滑动窗口
聚类
频率
矩阵
单体
人类
精度