摘要
本发明公开了一种蛋白质序列磷酸化位点的预测方法、系统、计算机设备和存储介质,涉及蛋白质序列磷酸化位点预测技术领域,包括对蛋白质的氨基酸序列和对应的磷酸化位点进行数据采集,采用自动标注的方式进行预处理,通过滑动窗口计算将蛋白质序列划分为若干段多肽链;基于BERT的蛋白质语言模型编码氨基酸序列,进行蛋白质信息特征提取,将条件随机场CRF作为解码器计算发射分数和转移分数,捕捉磷酸化位点的区域性分布以及串联效应,采用负似然对数NNL作为损失函数进行损失计算,采用ProtBERT作为提取蛋白质序列信息的主要架构进行磷酸化预测模型的搭建与训练;通过磷酸化预测模型进行磷酸化预测。本发明所述方法大幅降低了人工及时间成本。
技术关键词
条件随机场
位点
编码氨基酸序列
注意力机制
滑动窗口
词嵌入向量
前馈神经网络
特征窗口
解码器
磷酸化氨基酸
计算机设备
数据处理模块
矩阵
标记
效应
编码器
传播算法
预测系统