摘要
本申请公开了一种测序数据的智能压缩系统及方法,涉及智能压缩领域,其首先获取包含ID、Base和Quality数据的多条短基因序列,然后对这些待存储的DNA测序数据进行压缩处理。通过将待压缩的短基因序列与已拼接序列匹配,若Base数据全部匹配成功,则直接压缩;若部分匹配,则拆分为已匹配和未匹配序列分别压缩。对于未匹配序列,进一步切分为子序列集合,并基于群体特征分布引导的序列精选得到精炼子集,最后对精炼子集进行压缩编码。此方法有效提高了压缩率,尤其在处理未匹配序列时,通过精细筛选减少了冗余信息,提升了整体存储效率和数据检索速度,还增强了对长程冗余的有效挖掘能力。
技术关键词
编码向量
序列
智能压缩方法
智能压缩系统
语义
基因
数据处理模块
数据获取模块
冗余
编码器
速度
系统为您推荐了相关专利信息
车载系统
车载交互方法
车载交互装置
车载终端交互
多轮对话
荧光素酶报告系统
基因敲除质粒
病治疗药物
基因治疗载体
重复序列
迁移学习模型
实体关系抽取方法
机器学习算法
知识迁移学习
辅助训练数据