摘要
本发明涉及人工智能辅助药物发现领域,具体涉及一种基于蛋白质大语言模型的分子生成及优化方法,其方法包括:获取靶标蛋白质口袋的氨基酸序列信息和三维结构信息;利用基于蛋白质大语言模型构建的蛋白质编码器,对所述蛋白质口袋的氨基酸序列进行编码,得到蛋白质口袋特征向量;利用上下文编码器模块,根据预设的分子生成模式(从头生成或基于种子化合物的优化),编码上下文信息以获取潜向量;将所述蛋白质口袋特征向量与所述潜向量进行融合。本发明通过利用蛋白质大语言模型实现对蛋白质口袋的精确表征,并通过支持两种生成模式的统一框架,开发了“生成‑筛选‑优化”的迭代式药物设计策略,提高了生成分子的靶向特异性及药物设计的整体效率。
技术关键词
大语言模型
口袋
编码器模块
分子
三维结构
化合物库
种子
人工智能辅助
训练语料库
融合特征
参数化方法
序列
亲和力
靶标
模式
药物
解码器
配体