摘要
本申请公开了一种大模型训练数据增强方法,其首先以原始训练样本为基础,通过随机挑选样本并利用大模型生成新的训练样本,在此基础上,引入结构化编码机制,将原始与生成样本转化为结构化编码向量,并对生成样本与原始样本之间的语义关系进行建模和量化,以获得反映两者语义差异程度的查询响应表征;进而,通过特征解码得到语义漂移度估值,并基于该估值与预设阈值之间的比较,实现对生成数据是否合格的自动判别。通过这样的方式,实现了对新旧训练数据之间的语义一致性的精准评估,有效避免了因语义漂移导致的新数据偏离任务目标的问题,从而筛选出真正有助于提升模型泛化能力和鲁棒性的高质量增强样本。
技术关键词
生成训练样本
编码向量
训练样本数据
图谱
矩阵
卷积网络模型
度量
语义关联度
编码机制
节点
鲁棒性
解码器
邻域