摘要
基于改进自注意力与Mamba双模块的不同长度基因组序列编码方法,它涉及一种不同长度基因组序列编码方法。本发明为了解决现有技术中基因组序列无法合理输入至神经网络模型的问题。本发明在数据处理序列特征提取过程,提取不同长度基因组序列的kmer位置特征信息、kmer中心性特征信息以及kmer间关联性特征信息;在预训练过程,构建基于改进自注意力与Mamba双模块模型,通过掩码预训练使序列编码模型能够捕捉基因组序列的通用特征,获取不同长度基因组序列的相同维度通用表示向量;在微调过程,通过使用特定生物学任务数据微调训练,使编码模型能够更匹配病毒识别、病毒宿主和病毒生活方式识别等多种基于病毒基因组。本发明属于深度学习与基因工程技术领域。
技术关键词
序列编码方法
位置特征信息
注意力
线性变换矩阵
病毒
数据
基因工程技术
优化器
令牌
通用特征
空间模块
神经网络模型
参数
核苷酸
非线性
质粒
系统为您推荐了相关专利信息
场景生成方法
分支
三维场景建模技术
文本编码器
多层注意力机制
图像嵌入
交叉注意力机制
多模态
重构
特征提取网络
对比度
双通道卷积神经网络
灯珠
融合特征
双支持向量机
孤独症儿童
多模态注意力
监护方法
情感特征
语音特征