摘要
本公开提供一种蛋白质语言模型预训练与蛋白质突变方法及相关产品。该蛋白质语言模型预训练方法的一具体实施方式通过获取样本蛋白质数据集合;再根据每个该样本蛋白质数据中的多序列比对在各个位点的氨基酸残基概率分布,生成该样本蛋白质数据对应的多序列比对概率分布序列;正向或反向依次串联每个样本蛋白质数据中的样本蛋白质序列以及对应的多序列比对概率分布序列和结构序列,生成与相应样本蛋白质数据对应的多模态序列;最后,基于各样本蛋白质数据对应的多模态序列对蛋白质语言模型进行自回归预训练,得到预训练蛋白质语言模型。即,通过引入多序列比对概率分布序列作为独立的中间推理模态,以及两个方向思维链,提升模型预测性能。
技术关键词
序列
多模态
样本
模型预训练
位点
数据获取模块
标识
策略
处理器
下轮
计算机程序产品
蛋白
存储装置
可读存储介质
电子设备
指令
系统为您推荐了相关专利信息
风险评估系统
信用评估模型
样本
数据处理模块
数据采集模块
深度神经网络模型
坐标点
三维空间定位方法
样本
三维空间定位系统