摘要
本发明公开了一种基于深度学习的CRISPR/Cas9介导的DNA双链断裂修复结果预测方法,包括:(1)构建数据集,从公开数据库获取DNA序列数据集。(2)构建Token字典,用于将DNA序列编码数字序列。(3)构建输入序列,将DNA序列进行扫描,得到1‑mer和3‑mer子序列,再将其拼接,最后通过Token字典,编码成数字序列用于模型输入。(4)基于深度学习设计ECnnIndel方法,预测CRISPR/Cas9编辑结果。(5)对于待测的DNA序列,通过上述步骤将其编码成数字序列,输入已训练的ECnnIndel模型中,分析ECnnIndel的泛化性能。采用本发明有效解决设备资源不足,精度低等缺点,ECnnIndel促进了计算机辅助双链DNA断裂修复机制研究进展。
技术关键词
Adam算法
斯皮尔曼等级相关系数
频率
标识符
字典
滑动窗口方法
皮尔逊相关系数
编辑
训练集
更新模型参数
数据
DNA序列
修复机制
验证算法
编码
预测误差
模块