一种基于ProtBERT的甲基化DNA偏好结合转录因子识别方法

正文

推荐专利

申请号：CN202410783592

申请日期：2024-06-18

公开号：CN118430661B

公开日期：2025-06-13

类型：发明专利

摘要

本发明公开了一种基于ProtBERT的甲基化DNA偏好结合转录因子识别方法，涉及生物技术数据研究领域。该方法先获取转录因子序列数据集，并分为训练集和测试集；再通过AutoTokenizer将所有序列填充或裁剪处理到相同长度和标记化；最后使用BertForSequenceClassification加载预训练的ProtBERT模型进行序列分类。该方法能够捕捉序列中的深层次特征和复杂的依赖关系，Dropout层的应用增强了模型在新数据上的泛化能力，线性分类层将模型的输出转换为类别概率，在进行偏好结合甲基化DNA的转录因子分类中具有较高的准确度和可靠性；与传统的基于序列的预测技术相比，通过结合大模型技术，提升了处理效率，且自适应地学习序列的内在特征，提高了预测准确度、敏感性、特异性、Matthews相关系数和ROC曲线下面积等指标。

技术关键词

转录因子识别方法标记前馈神经网络矩阵 DNA序列样本非标准数学数据标识符参数注意力编码器元素非线性关系冗余

一种基于ProtBERT的甲基化DNA偏好结合转录因子识别方法

站点导航

APP 下载