摘要
本发明涉及一种基于基因表达谱的分子结构重建方法及系统,属于计算机辅助药物设计与人工智能交叉领域。该方法通过构建一种表型感知的分子生成模型,利用药物扰动后所获得的转录组数据,对部分缺失或掩码的分子结构进行重建。所述系统包括:一种卷积编码器,用于从输入的药物诱导基因表达谱中提取表型特征;以及一种Transformer结构的解码器,其在大规模化学结构数据(超过两千万个分子)上进行预训练,以实现对被掩码分子片段的有效还原。本方法基于L1000公开数据集进行训练和验证,该数据集包含117种细胞系的超过74,000个药物扰动样本。在训练过程中,随机掩码分子输入的部分结构,并以对应的基因表达响应作为条件,训练模型进行结构重建,从而建立生物学表型特征与化学结构子片段之间的对应关系。本发明提供了一种将基因表达空间与化学结构空间连接的生成式方法,具有良好的适应性与解释性,为表型驱动的分子设计提供了新的技术路径。
技术关键词
分子
表型特征
结构模块
一维卷积神经网络
交叉注意力机制
基因表达谱
卷积编码器
模型预训练
跨模态
标记
解码器结构
掩码策略
药物
生成方法
序列
数据
系统为您推荐了相关专利信息
票据信息识别
票据识别方法
多尺度特征提取
票据真伪
图像
噪声
交叉注意力机制
计算机设备
ResNet网络
语义特征
环保绝缘气体
性能预测方法
神经网络模型
分子
模型更新
图像生成方法
图像生成技术
交叉注意力机制
分类器
书法图像