一种基于N-gram模型增强蛋白质肽段组装的方法

正文

推荐专利

申请号：CN202411624704

申请日期：2024-11-14

公开号：CN119560020A

公开日期：2025-03-04

类型：发明专利

摘要

本发明公开了一种基于N‑gram模型增强蛋白质肽段组装的方法，包括：第一部分以UniRef50的非冗余蛋白质序列数据库作为训练数据，对这些序列数据进行清理和标准化格式的预处理；使用预处理后的数据进行N‑gram模型构建；使用Kneser‑Ney平滑技术优化模型并计算氨基酸的条件概率，为后续寻找deBruijn图的最优路径提供依据；第二部分以测序所得的蛋白质肽段序列作为输入，对肽段序列进行预处理；将预处理后的肽段划分为以k为长度的连续子串；使用肽段子串构建deBruijn图，用于表示肽段之间的重叠关系；再结合贪婪算法与第一部分的氨基酸概率寻找最优路径；输出蛋白质组装序列。本发明有效延长了蛋白质组装序列的长度，并提高了精确度，为确定蛋白质全长序列提供了新技术。

技术关键词

蛋白质序列数据库滑动窗口贪婪算法寻找最优路径原始测序数据覆盖率节点平滑技术切片冗余种子格式指标频率关系因子代表

系统为您推荐了相关专利信息

一种危险化学品安全生产风险预测方法

数学模型风险预测方法因子滑动窗口技术变异策略

基于开源引擎的诊疗辅助分析数据的异地容灾存储系统

数据迁移路径异地容灾数据存储中心存储系统数据压缩

一种基于双控制器架构的车载控制系统

车载控制系统双控制器自检模块控制模块故障特征

一种基于机器学习的建筑工程安全监测方法及系统

风险评估报告关联挖掘算法时间序列分析方法监测方法高风险

考虑频率分布差异的动力学模型残差补偿机器人碰撞检测方法及系统

残差预测运动学特征 XGBoost算法观测器表达式

一种基于N-gram模型增强蛋白质肽段组装的方法

站点导航

APP 下载