摘要
本发明提供了一种基于卷积神经网络和残差注意力机制的蛋白质表达预测方法,属于生物信息学和人工智能领域。本方法包括以下步骤:对DNA序列进行数据清洗和二进制独热编码,将编码后的DNA序列输入特征提取层,提取DNA的局部特征;通过卷积神经网络提取局部特征,通过多头注意力机制获取全局特征,并结合残差连接;最终将全局特征输入全连接层,生成蛋白质表达预测结果。进一步地,利用SHAP可解释性方法,对预测模型输出结果进行解释,量化DNA序列中每个位置的碱基对预测值的贡献。本发明结合深度学习与可解释性技术,显著提高了蛋白质表达预测的精度和可信度,适用于预测蛋白质表达。
技术关键词
残差注意力机制
蛋白质表达
神经网络训练
多头注意力机制
DNA序列
训练特征
特征提取网络
卷积神经网络提取
表达式
荧光
机器学习模型
矩阵
编码器
数据分布
特征值
复杂度