摘要
一种基于单氨基酸序列特征的蛋白质二级结构预测方法,它属于生物信息学领域。本发明解决了由于进化信息特征获取存在局限性且模型忽略了氨基酸序列中二级结构标签之间的相互依赖关系,导致利用现有方法获得的模型预测效果不佳的问题。本发明在特征处理阶段融合了蛋白质语言模型生成的特征表示以及采用词嵌入和位置嵌入的混合编码方式得到的特征,融合的特征既含有丰富的进化信息,又充分获取了序列中氨基酸残基的位置信息以及它们之间的依赖关系。融合的特征再依次经过Transformer编码器、CNN和BiLSTM输出全局特征信息,并通过引入CRF,将序列中蛋白质二级结构之间的相互作用考虑在内,保证蛋白质二级结构预测准确率。本发明方法可以应用于蛋白质二级结构预测。
技术关键词
蛋白质二级结构
BiLSTM模型
序列特征
编码向量
Viterbi算法
二级结构预测
标签
注意力
编码器
前馈神经网络
代表
训练样本集
元素
矩阵
关系
冗余
阶段
系统为您推荐了相关专利信息
人体动作识别方法
融合注意力机制
人体骨架
关节点
路径特征
编码向量
编码特征
智能管理方法
建筑物信息模型
智能管理系统
路径检测方法
图谱
BiLSTM模型
注意力机制
卷积神经网络模型
机器学习模型
在线学习平台
监督学习算法
风险
计算机装置
光伏阵列状态
融合神经网络
门控循环单元
识别光伏
时间序列特征