摘要
本发明涉及一种基于向量量化的蛋白质结构表示方法,包括:将蛋白质数据分为已知部分和未知部分,其中,已知部分包括已知蛋白质序列和已知蛋白质结构;针对已知部分,依次进行蛋白质序列结构编码和软条件向量量化处理,得到已知部分的量化后的表示;将已知部分的量化后的表示输入折叠符号生成模型FoldGPT,输出得到预测的量化表示;针对预测的量化表示进行蛋白质序列结构解码,生成未知部分的氨基酸残基及其空间结构。与现有技术相比,本发明能够实现蛋白质序列和三维结构信息的统一表示,提高蛋白质结构的重建质量,并支持高效、高精度的蛋白质序列和结构生成。
技术关键词
序列
三维空间结构
词嵌入技术
符号
多层感知机
神经网络模型
生成方式
数据编码
三维结构
阶段
索引
解码器
误差
数值
系统为您推荐了相关专利信息
检测模型训练方法
轻量化神经网络
注意力
数据
网络架构
增益系统
公益林
连续监测数据
插值模块
动态监测数据
数据处理方法
拉格朗日插值
数据缺失值
客户
电力
新能源场站
模型构建方法
气象
地理位置信息
模型预训练