基于序列数据的模型训练方法及相关产品

正文

推荐专利

基于序列数据的模型训练方法及相关产品

申请号：CN202411953481

申请日期：2024-12-27

公开号：CN119889456A

公开日期：2025-04-25

类型：发明专利

摘要

本公开提供一种基于序列数据的模型训练方法及相关产品。该基于序列数据的模型训练方法的一具体实施方式通过基于单个分子标识进行Token化(即词元切分)，使得词典中词元数量仍为分子标识的种类个数，确保分子标识序列编码模型可以定位到单个分子标识，进而可以完成单个分子标识级别的下游任务。另外，通过在单个分子标识的向量表示中引入至少一个上下文向量，在单个分子标识向量的基础上，融合上下文向量，增强模型局部感知能力，确保了输入分子标识序列编码模型token的多样性，以缓解词典容量过小，模型优化困难的问题。

技术关键词

分子序列预训练模型模型训练方法样本标识特征注意力数据编码装置数据编码方法邻域模型训练装置处理器计算机程序产品词典编码模块存储装置

系统为您推荐了相关专利信息

垃圾分类识别方法、系统、电子设备及存储介质

垃圾分类识别方法感知哈希算法训练检测模型资源定位符 K均值算法

一种灾时人群移动轨迹生成方法、设备及介质

轨迹生成方法出行日志地理实体地点居民

DRAM的刷新周期检测方法、装置、设备和计算机可读介质

人工智能芯片机器学习模型逻辑分析仪处理器样本

一种基于联邦学习的异构模型训练方法及系统

适配器模型训练方法客户端分类器异构

表字段召回方法、装置、设备及介质

语义向量语句人类注意力召回方法

基于序列数据的模型训练方法及相关产品

站点导航

APP 下载