摘要
本发明公开了一种基于生物分子互作结构域增强的蛋白质序列设计方法,包括:先输入一个大小为L×N×3的待进行序列设计的蛋白质主链骨架三维坐标信息;获取与生物分子接触的蛋白质序列和相互作用结构域区间;将获取的序列聚类并取出每个簇的代表序列作为训练集;再提取出每条训练样本的三维结构、二级结构、溶剂可及性和功能注释特征表示;使用LoRA算法微调通用多模态蛋白质语言模型ESM3的最后十层transformer模块,对于位于相互作用结构域区间的掩码残基的损失给予更大的权重;将待进行序列设计的蛋白质主链骨架的原子坐标输入到训练好的模型中,得到目标序列。本发明一方面利用了海量蛋白质的多模态信息;另一方面能生成更加健壮且合理的功能性蛋白质序列。
技术关键词
序列设计方法
三维坐标信息
三维结构
分子
生物
并行算法
多模态
笛卡尔
代表
冗余
训练集
令牌
聚类
参数
数据
标记
周期
系统为您推荐了相关专利信息
心血管疾病风险
评估系统
量子态
量子神经网络
量子纠缠交换
胃蛋白酶
蛇形通道
溶液
纸基微流控装置
微流控芯片
肝纤维化动物模型
小鼠肝纤维化
激酶抑制剂
二甲基亚砜
储存液
数据分析方法
动态监测数据
热力图
K均值算法
GPS设备