摘要
本发明公开了融合语义特征的单宏基因组重叠群序列聚类方法及系统,所述方法包括:对宏基因组原始数据进行预处理,得到DNA重叠群序列,从重叠群中提取出4‑mer特征,对4‑mer特征进行降维,得到DNA重叠群序列的组成特征;从DNA重叠群序列中选取出训练序列,使用训练序列对DNABERT_S模型进一步预训练后进行语义特征提取,得到语义特征;将组成特征和语义特征输入到预先构建的VAE变分自编码器中进行特征融合重构,并计算重构误差;当重构误差稳定或达到预定的训练轮次时,获取VAE变分自编码器的潜在空间特征,根据潜在空间特征,通过k均值聚类算法完成对DNA重叠群序列的聚类。本发明解决了在缺乏覆盖率特征时聚类精度较低的问题,提高了单样本宏基因组的聚类效果。
技术关键词
序列聚类方法
融合语义
k均值聚类算法
重构误差
语义特征提取
编码器
滑动窗口技术
聚类系统
标记基因
可读存储介质
组装工具
特征提取模块
重构模块
拷贝
覆盖率
系统为您推荐了相关专利信息
动态触发机制
跟踪控制方法
动态事件触发机制
重构误差
控制策略
知识推理方法
融合语义
多模态
工业质检
动态权重分配
空调监控系统
智能嗅觉
空调控制单元
重构误差
数据采集单元