摘要
本发明属于人工智能算法应用‑生物序列识别领域,涉及基于ClusterCentroids欠采样技术预测多种赖氨酸修饰位点的方法。首先,通过数据收集、整合与去冗余,优化特征空间,减少冗余信息,获得了一批存在显著类别不均衡问题的蛋白质序列作为输入数据。接着,使用多标签具体位置三联氨基酸倾向特征提取算法对蛋白质序列进行特征编码,获得输入特征矩阵。而后,采用ClusterCentroids框架辅以MinibatchKmeans算法计算多数类的聚类中心对不平衡数据集进行处理,确保模型在各种修饰位点预测上都能有很好的预测效果。本发明使用可通过说明书和已开源的代码实现预测多个赖氨酸翻译后修饰位点。
技术关键词
赖氨酸
采样技术
数据
位点
三联
依赖特征
特征提取模块
构建卷积神经网络
分类模型构建
神经网络架构
多标签
ReLU函数
特征提取算法
初始聚类中心
人工智能算法
样本
序列识别
冗余
系统为您推荐了相关专利信息
水听器
信号采集系统
水下相机
叠加特征
干扰特征
颜色
生成重构图像
控制点
神经网络模型构建
图像编码器
卷烟产品
卷烟包装机
拉伸聚丙烯薄膜
评价方法
权重模型