一种基于N-gram模型增强蛋白质肽段组装的方法

AITNT
正文
推荐专利
一种基于N-gram模型增强蛋白质肽段组装的方法
申请号:CN202411624704
申请日期:2024-11-14
公开号:CN119560020A
公开日期:2025-03-04
类型:发明专利
摘要
本发明公开了一种基于N‑gram模型增强蛋白质肽段组装的方法,包括:第一部分以UniRef50的非冗余蛋白质序列数据库作为训练数据,对这些序列数据进行清理和标准化格式的预处理;使用预处理后的数据进行N‑gram模型构建;使用Kneser‑Ney平滑技术优化模型并计算氨基酸的条件概率,为后续寻找deBruijn图的最优路径提供依据;第二部分以测序所得的蛋白质肽段序列作为输入,对肽段序列进行预处理;将预处理后的肽段划分为以k为长度的连续子串;使用肽段子串构建deBruijn图,用于表示肽段之间的重叠关系;再结合贪婪算法与第一部分的氨基酸概率寻找最优路径;输出蛋白质组装序列。本发明有效延长了蛋白质组装序列的长度,并提高了精确度,为确定蛋白质全长序列提供了新技术。
技术关键词
蛋白质序列数据库 滑动窗口 贪婪算法 寻找最优路径 原始测序数据 覆盖率 节点 平滑技术 切片 冗余 种子 格式 指标 频率 关系 因子 代表
系统为您推荐了相关专利信息
1
一种危险化学品安全生产风险预测方法
数学模型 风险预测方法 因子 滑动窗口技术 变异策略
2
基于开源引擎的诊疗辅助分析数据的异地容灾存储系统
数据迁移路径 异地容灾 数据存储中心 存储系统 数据压缩
3
一种基于双控制器架构的车载控制系统
车载控制系统 双控制器 自检模块 控制模块 故障特征
4
一种基于机器学习的建筑工程安全监测方法及系统
风险评估报告 关联挖掘算法 时间序列分析方法 监测方法 高风险
5
考虑频率分布差异的动力学模型残差补偿机器人碰撞检测方法及系统
残差预测 运动学特征 XGBoost算法 观测器 表达式
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号