摘要
本申请提供一种RNA m5C位点识别方法及系统,该方法包括:步骤1:对同一RNA样本进行多种测序,获得高置信度第一m5C标注reads数据和高置信度第一hm5C标注reads数据,将所述第一m5C标注reads数据和第一hm5C标注reads数据作为训练集;步骤2:提取所述第一m5C标注reads数据和第一hm5C标注reads数据的序列统计特征和RNA二级结构配对概率;步骤3:使用所述训练集训练学习模型分类器,得到训练好的学习模型分类器;步骤4:将待检测RNA样本进行RNA‑BisSeq测序,获得第二m5C标注reads数据,将所述第二m5C标注reads数据作为测试集,将所述测试集输入预先训练好的学习模型分类器,输出m5C位点的预测结果。本方法在只具有RNA‑BisSeq数据的条件下,仍能对m5C位点进行自动化的假阳性识别以及hm5C位点识别,减少实验验证成本。
技术关键词
统计特征
RNA二级结构
位点
识别方法
XGBoost模型
机器学习模型
序列
数据
识别系统
学习分类器
随机森林模型
深度学习模型
训练集
样本
归一化模块
处理器
计算机设备
系统为您推荐了相关专利信息
视觉识别方法
动态场景
图像像素
掩码矩阵
时空图模型
曲线预测方法
搜寻算法
XGBoost模型
土水特征曲线
网格
人脸识别方法
云端服务器
密钥
正交变换
计算机可执行指令