摘要
本公开实施例涉及一种训练数据生成方法、装置、设备、存储介质和程序产品,涉及数据处理技术、文本生成技术、大模型技术、大语言模型技术领域。该方法包括:获取多个初始训练样本;基于预设切分类别字段对初始训练样本进行字段匹配,确定初始训练样本归属的至少一个第一候选切分类别和候选切分位置;基于各预设切分类别的类别出现概率和样本数据总量,确定预设切分类别的样本数据量;基于样本数据量、预设切分类别和第一候选切分类别的匹配关系,从各第一候选切分类别中确定初始训练样本的目标切分类别;基于目标切分类别对应的候选切分位置对初始训练样本进行文本分割处理,生成目标训练样本。如此,能够缩小生成目标训练样本与真实情况之间的差异,间接提高依靠目标训练样本训练的生成式模型的准确度。
技术关键词
训练数据生成方法
字段
样本
分段
关键字
文本生成技术
计算机程序产品
数据生成装置
大语言模型
数据处理技术
处理器
编辑
总量
匹配模块
关系
可读存储介质
指令
存储器
系统为您推荐了相关专利信息
数据分析工具
线下
格式
智能决策模型
文本处理技术
交叉注意力机制
肿瘤抗原
注意力编码器
HLAI类分子
关键氨基酸位点