摘要
本发明公开了一种基于N‑gram模型增强蛋白质肽段组装的方法,包括:第一部分以UniRef50的非冗余蛋白质序列数据库作为训练数据,对这些序列数据进行清理和标准化格式的预处理;使用预处理后的数据进行N‑gram模型构建;使用Kneser‑Ney平滑技术优化模型并计算氨基酸的条件概率,为后续寻找deBruijn图的最优路径提供依据;第二部分以测序所得的蛋白质肽段序列作为输入,对肽段序列进行预处理;将预处理后的肽段划分为以k为长度的连续子串;使用肽段子串构建deBruijn图,用于表示肽段之间的重叠关系;再结合贪婪算法与第一部分的氨基酸概率寻找最优路径;输出蛋白质组装序列。本发明有效延长了蛋白质组装序列的长度,并提高了精确度,为确定蛋白质全长序列提供了新技术。
技术关键词
蛋白质序列数据库
滑动窗口
贪婪算法
寻找最优路径
原始测序数据
覆盖率
节点
平滑技术
切片
冗余
种子
格式
指标
频率
关系
因子
代表
系统为您推荐了相关专利信息
数学模型
风险预测方法
因子
滑动窗口技术
变异策略
数据迁移路径
异地容灾
数据存储中心
存储系统
数据压缩
车载控制系统
双控制器
自检模块
控制模块
故障特征
风险评估报告
关联挖掘算法
时间序列分析方法
监测方法
高风险
残差预测
运动学特征
XGBoost算法
观测器
表达式