摘要
本公开提供一种基于序列数据的模型训练方法及相关产品。该基于序列数据的模型训练方法的一具体实施方式通过基于单个分子标识进行Token化(即词元切分),使得词典中词元数量仍为分子标识的种类个数,确保分子标识序列编码模型可以定位到单个分子标识,进而可以完成单个分子标识级别的下游任务。另外,通过在单个分子标识的向量表示中引入至少一个上下文向量,在单个分子标识向量的基础上,融合上下文向量,增强模型局部感知能力,确保了输入分子标识序列编码模型token的多样性,以缓解词典容量过小,模型优化困难的问题。
技术关键词
分子
序列
预训练模型
模型训练方法
样本
标识特征
注意力
数据编码装置
数据编码方法
邻域
模型训练装置
处理器
计算机程序产品
词典
编码模块
存储装置
系统为您推荐了相关专利信息
垃圾分类识别方法
感知哈希算法
训练检测模型
资源定位符
K均值算法
人工智能芯片
机器学习模型
逻辑分析仪
处理器
样本