摘要
本公开提供一种蛋白质语言模型预训练与蛋白质序列处理方法及相关产品。该蛋白质语言模型预训练方法的一具体实施方式通过对样本蛋白质序列和样本蛋白质序列中的共进化对进行掩码处理,得到样本掩码标记序列;再基于蛋白质语言模型,对样本掩码标记序列进行嵌入表示和特征编码,得到编码特征序列;基于预设序列特征解码器,对编码特征序列进行解码,得到解码蛋白质序列;基于解码蛋白质序列与样本蛋白质序列和各共进化对之间的差异,对蛋白质语言模型进行优化。即,通过在预训练过程中对蛋白质序列中的共进化对进行掩码,可以优化蛋白质语言模型对蛋白质序列的理解和预测能力,以及提高基于蛋白质语言模型的下游蛋白质序列/结构相关任务的准确率。
技术关键词
编码特征
标记
注意力
样本
序列特征
模型预训练
掩码矩阵
解码器
处理器
计算机程序产品
解码模块
编码模块
存储装置
可读存储介质
系统为您推荐了相关专利信息
故障诊断模型
注意力
特征提取模块
全局平均池化
全局特征提取
变电站互感器
渗漏油
光谱成像
风险检测方法
金属接触面
导航方法
动作策略
图像编码器
解码器
神经网络模型