摘要
本发明公开了一种基于跨模态对齐的蛋白质多模态联合建模方法及系统,旨在实现蛋白质文本描述、序列信息和结构特征的统一表征和处理,以提升复杂蛋白质分析预测任务及开放性研究任务的准确性和泛化能力。本发明首先收集并预处理蛋白质多模态数据生成标准化表示,利用几何图神经网络和蛋白质序列模型提取特征,经投影模块对齐后传给大语言模型,再投影融合生成统一的不变特征,最后结合等变特征完成蛋白质分析预测任务。本发明能够有效整合蛋白质的多模态信息,实现跨模态特征的高效对齐和融合,提升对蛋白质复杂特性的理解和预测能力,为精准生物信息学分析和生物医药研究提供有力支撑。
技术关键词
联合建模方法
跨模态
多模态
投影模块
大语言模型
语义特征
蛋白质三维结构
文本
蛋白质分析
嵌入特征
后续处理过程
特征提取模块
建模装置
建模系统
数据
对齐模块
序列特征
自然语言