摘要
本发明公开了一种RNA序列中2OM位点的识别预测方法,属于生物信息学技术领域。本发明引入RMBase v3.0数据集,涵盖了更多的2OM位点信息,数据量和质量较之前版本有所提升,为模型的训练提供了更加全面、准确的数据支持,有利于提升模型的泛化能力;采用了四种互补且高效的特征提取方法(K‑mer、ENAC、PS2和DPCP_2),每种方法从不同层面深入挖掘RNA序列的生物学信息,四种方法的结合显著提高了模型对2OM位点的预测能力,既能全面描述RNA序列的特性,又确保了模型的高效性和准确性;选取的模型在保证高效处理大规模数据的同时,具备更强的可理解性和灵活性,适用于广泛的应用场景,并具有较强的普适性和推广潜力。
技术关键词
识别预测方法
序列
位点
核苷酸
特征提取方式
生物信息学技术
GBDT模型
数据
特征选择方法
滑动窗口
构建预测模型
特征提取方法
随机森林模型
编码
工作特征
样本
频率
聚类
系统为您推荐了相关专利信息
病毒
多任务学习策略
编码器结构
注意力机制
融合统计特征
智能辅助系统
患者
可穿戴设备
图像增强单元
综合相关系数
重构误差
铝合金管
音频
无监督学习
Akaike信息准则
时序预测方法
时序预测模型
线性链条件随机场
动态演化过程
变量
全基因组测序数据
基因检测方法
广义线性模型
泊松分布模型
核苷酸