摘要
本发明涉及蛋白质序列聚类技术领域,公开了基于分组的蛋白质序列聚类方法及系统;方法包括:对第i个待聚类的蛋白质序列进行分割,得到若干个蛋白质子序列,对每个蛋白质子序列,均采用第j种哈希函数进行哈希映射,得到每个蛋白质子序列对应的哈希值;选择哈希值中的最小值,作为MinHash值;得到序列在M种哈希函数下的MinHash值;进而得到N个待聚类的蛋白质序列在M种哈希函数下的MinHash值;在每一种哈希函数下,遍历所有待聚类的蛋白质序列所对应的MinHash值,将值相同的待聚类的蛋白质序列划入同一个分组中;对每个组内的蛋白质序列进行聚类得到聚类结果。在降低计算复杂度的同时,保持聚类结果的准确性。
技术关键词
序列聚类方法
通用哈希函数
滑动窗口
队列
节点
聚类系统
聚类技术
标识符
树状结构
模块
哈希算法
元素
种子
编码
复杂度
字符
基础
尺寸
系统为您推荐了相关专利信息
冲击特征
监测方法
历史工况数据
密度聚类算法
多模态传感器
共享电动自行车
移动电源
老化预测方法
电压
数据