摘要
本发明涉及一种利用中介序列MSA与扩散掩码机制的肽序列生成模型及生成方法,具体为包含进化信息的肽序列AI模型训练方法。创新性引入中介序列,解决肽因序列过短而无法直接获取进化信息的问题。首先对肽数据集构建MSA,对于其中无法构建有效MSA的,将其序列与蛋白数据库进行比对,选取具有高同源性和适当长度的中介序列,随后构建中介序列的MSA数据,用于引导Al模型捕获进化特征。模型训练采用扩散语言掩码机制和MSA Transformer,在肽MSA中随机掩蔽全部区域,中介MSA中掩蔽肽映射区域,对肽进行嵌入建模和生成。该方法可捕获稀疏的肽进化信息,实现肽的语义建模与高效生成,适用于药物设计、蛋白工程等领域中的肽序列优化与合成。
技术关键词
序列
搜索工具
AI模型训练方法
掩码策略
编码结构
生成方法
编码器
数据
机制
多肽
字符
格式
蛋白
框架
模式
语义
冗余
药物
系统为您推荐了相关专利信息
LSTM模型
长短期记忆网络
覆盖率
区间预测方法
预测系统
智能监管系统
声纹识别技术
磨煤机
分析模块
监测点
网络流量数据
零日攻击检测
预测网络流量
监测系统
卷积神经网络提取