摘要
本发明公开了一种基于二次微调和集成算法的DNA甲基化位点预测方法,属于生物信息学技术领域。本发明将UCSC数据库中获得的人类DNA启动子序列经过1‑mer、3‑mer和5‑mer分词后作为语料库对BERT模型进行预训练,形成Promoter‑BERT模型,实现了对DNA启动子序列中深层特征的捕获和抽象,为后续的微调提供了高效且稳健的初始状态;利用3种甲基化的最大的三个数据集对Promoter‑BERT模型进行第一次微调,并利用数据量较小的14个数据集进行了模型的第二次微调,可以使模型更加专注于学习该数据集特有的特征,从而更好地适应特定任务,这有助于模型在目标任务上获得更高的准确性和性能,减少过拟合的风险。
技术关键词
BERT模型
位点预测方法
集成算法
启动子
分词
序列
生物信息学技术
数据
模型预训练
预训练模型
参数
策略
人类
标记
风险
周期
基础
系统为您推荐了相关专利信息
文本型指标
数值型指标
分类方法
预训练语言模型
量表
大语言模型
样本生成方法
种子
深度神经网络
过滤器
评估指标体系
策略
生成决策建议
木桶效应
抽取系统