摘要
本发明属于蛋白活性预测技术领域,具体公开了一种基于Transformer的基因编辑Cas9蛋白活性预测方法及系统,该方法提取目标序列信息以及编辑活性效率,建立Cas9蛋白的预测模型,将目标序列输入预测模型,进行k‑mer编码转义为模型能够识别的信息,得到3种不同的输入;三种信息经由Embedding编码和位置编码,提取特征信息以及位置信息;多头注意力网络对提取的信息加强,得到核苷酸的相互作用信息,经由残差网络和归一化网络加速模型的训练与收敛;三种k‑mer输入传入双层注意力机制生成网络,将各个核苷酸的信息按照权重向量进行融合,得到cas9蛋白的活性数值。采用本技术方案,将文本数据与Cas9蛋白和细胞特征的基因组数据进行融合,提高基因编辑技术中CRISPR/Cas9系统的准确性和泛化能力。
技术关键词
活性预测方法
核苷酸
蛋白
编码
残差网络
注意力机制
矩阵
预测系统
基因编辑技术
前馈神经网络
DNA序列
缩放参数
结点
数值