摘要
本发明属于计算机技术领域,公开了一种基于人工智能技术识别液‑液相分离调节蛋白的方法,本发明采用了一种基于人工智能的方法来识别LLPS中的调节蛋白。首先构建了一个包含913个阳性蛋白质序列和6584个阴性蛋白质序列的可靠数据集。为了应对类不平衡的问题,将阴性数据集随机划分为多个子集,每个子集的大小与阳性数据集数目相匹配,最终获得了8个平衡的训练集和一个独立测试集。接着,利用蛋白质预训练语言模型ESM2‑36从这些蛋白质序列中提取特征信息。以此为基础,训练了一个基于多层感知器(MLP)的集成分类器,采用10倍交叉验证来优化模型。最终,该分类器在测试数据集上达到了77.78%的准确率。
技术关键词
人工智能技术
信息数据处理终端
Boost模型
液相
梯度提升决策树
细胞骨架蛋白
预训练语言模型
生成特征向量
集成分类器
多层感知器
多层感知机
序列特征
编码模块
基准
冗余
系统为您推荐了相关专利信息
故障诊断方法
无监督
旋转机械振动信号
故障诊断模型
频域特征提取
智能机器人
人工智能技术
保护箱
承载盒
推送机构
自动控制方法
智能灭火
灭火控制装置
集群
火灾探测器
意图识别模型
模型训练方法
文本处理方法
预训练语言模型
终端设备