一种基于Spark的分布式序列比对方法及系统

正文

推荐专利

申请号：CN202510070987

申请日期：2025-01-16

公开号：CN119851761B

公开日期：2025-11-04

类型：发明专利

摘要

本发明公开了一种基于Spark的分布式序列比对方法及系统，涉及生物信息学技术领域，包括：接收Minimap2参考序列，基于Minimap2的多部分索引生成功能生成参考序列的多部分索引；基于参考序列的多部分索引内的字符串作为标识符将参考序列的多部分索引进行分区，得到分区副本，将分区副本分发至Spark集群的各个节点上；接收查询序列，对查询序列通过FASTA或FASTQ的文件格式进行分区，基于参考序列的分区数量和查询序列的分区数量以及各个节点上的分区副本生成多节点共享任务队列；各个节点基于多节点共享任务队列，选择自身所有索引文件分区副本对应的任务队列中需要处理剩余所有任务所需花费的时间最长的任务队列中的任务进行处理，得到任务处理结果。结合了查询序列分区和参考序列数据库分区的策略，通过建立多节点共享任务队列实现动态负载均衡，优化了Minimap2与大规模数据集比对时的效率。适用于第三代测序技术产生的长序列数据，特别适用于现场快速测序与分析的应用场景。

技术关键词

序列比对方法队列索引多节点副本序列比对系统生物信息学技术标识符指针集群处理器可读存储介质分区模块测序技术哈希算法存储器字符

系统为您推荐了相关专利信息

一种基于大数据的智能业务资源调度方法及系统

业务资源调度方法仓库分布式数据采集动态时间窗口队列

一种基于深度学习的数学试题知识点自动标注方法

粒子群优化算法标注方法知识点标签分布估计算法词嵌入向量

一种读后写冲突预测方法、装置及设备

冲突预测方法程序计数器处理器索引执行加载指令

频谱显示方法、设备和系统

频谱显示方法分块强度显示设备频率检测设备

基于联邦学习的多模态通专模型协同训练方法

专用模型协同训练方法音频特征检索图像数据多模态

一种基于Spark的分布式序列比对方法及系统

站点导航

APP 下载