摘要
本发明公开了一种基于ProtBERT的甲基化DNA偏好结合转录因子识别方法,涉及生物技术数据研究领域。该方法先获取转录因子序列数据集,并分为训练集和测试集;再通过AutoTokenizer将所有序列填充或裁剪处理到相同长度和标记化;最后使用BertForSequenceClassification加载预训练的ProtBERT模型进行序列分类。该方法能够捕捉序列中的深层次特征和复杂的依赖关系,Dropout层的应用增强了模型在新数据上的泛化能力,线性分类层将模型的输出转换为类别概率,在进行偏好结合甲基化DNA的转录因子分类中具有较高的准确度和可靠性;与传统的基于序列的预测技术相比,通过结合大模型技术,提升了处理效率,且自适应地学习序列的内在特征,提高了预测准确度、敏感性、特异性、Matthews相关系数和ROC曲线下面积等指标。
技术关键词
转录因子
识别方法
标记
前馈神经网络
矩阵
DNA序列
样本
非标准
数学
数据
标识符
参数
注意力
编码器
元素
非线性
关系
冗余