摘要
本发明公开了一种引入全局功能域的Cas蛋白分类方法及系统,该方法包括:读取Cas蛋白序列文件并进行预处理及构建正负样本对;在预训练的蛋白质语言模型上引入基于Cas蛋白序列全局功能域先验的LoRA动态秩调整机制,训练后的蛋白质语言模型用于Cas蛋白序列分类,其中,以Cas蛋白序列中每个位置的功能域覆盖频率量化每个位置的功能重要性生成全局热点功能域向量,动态指导LoRA模型中不同的LoRA层秩参数,调整蛋白质语言模型的权重参数。本发明技术方案基于Cas蛋白序列全局功能域先验的LoRA动态秩调整机制以及通过分层动态策略,使得秩分配与功能域进化保守性及结构特性高度一致,赋予模型更强的生物学可解释性。
技术关键词
序列
蛋白
热点
样本
动态
分类方法
参数
分类系统
注意力
频率
处理器
计算机设备
可读存储介质
模块
策略
标记
编码器
定义
语义
位点
系统为您推荐了相关专利信息
数据集构建方法
重要性评估方法
机器学习模型
记录环境参数
图像滤波算法
地形识别方法
指数特征
曲率特征
随机森林模型
样本
数据库查询语句
知识图谱查询方法
三元组
查询界面
语义