摘要
本发明公开了一种基于Spark的分布式序列比对方法及系统,涉及生物信息学技术领域,包括:接收Minimap2参考序列,基于Minimap2的多部分索引生成功能生成参考序列的多部分索引;基于参考序列的多部分索引内的字符串作为标识符将参考序列的多部分索引进行分区,得到分区副本,将分区副本分发至Spark集群的各个节点上;接收查询序列,对查询序列通过FASTA或FASTQ的文件格式进行分区,基于参考序列的分区数量和查询序列的分区数量以及各个节点上的分区副本生成多节点共享任务队列;各个节点基于多节点共享任务队列,选择自身所有索引文件分区副本对应的任务队列中需要处理剩余所有任务所需花费的时间最长的任务队列中的任务进行处理,得到任务处理结果。结合了查询序列分区和参考序列数据库分区的策略,通过建立多节点共享任务队列实现动态负载均衡,优化了Minimap2与大规模数据集比对时的效率。适用于第三代测序技术产生的长序列数据,特别适用于现场快速测序与分析的应用场景。
技术关键词
序列比对方法
队列
索引
多节点
副本
序列比对系统
生物信息学技术
标识符
指针
集群
处理器
可读存储介质
分区模块
测序技术
哈希算法
存储器
字符
系统为您推荐了相关专利信息
业务资源调度方法
仓库
分布式数据采集
动态时间窗口
队列
粒子群优化算法
标注方法
知识点标签
分布估计算法
词嵌入向量
冲突预测方法
程序计数器
处理器
索引
执行加载指令
专用模型
协同训练方法
音频特征
检索图像数据
多模态