摘要
本发明公开了一种基于自回归大模型的核酸序列特征挖掘方法,该方法全程基于无监督式一维核酸序列进行挖掘,基于频率统计法归纳有效k‑mer核苷酸片段,使用提取的k‑mer核苷酸片段作为分割基础,基于无监督式自回归转换器模型上进行特征训练,从而得到密集型高语义信息的序列嵌入特征。本发明实现了基于大规模数据集的无监督学习方法,在降低数据采集和标注实现成本同时将核酸序列信息映射到高维语义空间,实现高密度语义信息的特征提取,为疾病预测分类、药物开发等下游任务提供基础。
技术关键词
核酸序列数据
序列特征
特征提取网络
多头注意力机制
挖掘方法
无监督
核酸序列信息
重复序列
监督学习方法
标识符
转换器
编码
嵌入特征
语义
频率
系统为您推荐了相关专利信息
人脸鉴别方法
编码器
深度学习模型
注意力机制
图像处理
Petri网模型
挖掘方法
结点
日志
业务流程执行
节能优化系统
优化预测模型
采煤机
能耗
识别模块