大模型训练数据增强方法

正文

推荐专利

大模型训练数据增强方法

申请号：CN202510717135

申请日期：2025-05-30

公开号：CN120235194B

公开日期：2025-08-26

类型：发明专利

摘要

本申请公开了一种大模型训练数据增强方法，其首先以原始训练样本为基础，通过随机挑选样本并利用大模型生成新的训练样本，在此基础上，引入结构化编码机制，将原始与生成样本转化为结构化编码向量，并对生成样本与原始样本之间的语义关系进行建模和量化，以获得反映两者语义差异程度的查询响应表征；进而，通过特征解码得到语义漂移度估值，并基于该估值与预设阈值之间的比较，实现对生成数据是否合格的自动判别。通过这样的方式，实现了对新旧训练数据之间的语义一致性的精准评估，有效避免了因语义漂移导致的新数据偏离任务目标的问题，从而筛选出真正有助于提升模型泛化能力和鲁棒性的高质量增强样本。

技术关键词

生成训练样本编码向量训练样本数据图谱矩阵卷积网络模型度量语义关联度编码机制节点鲁棒性解码器邻域

大模型训练数据增强方法

站点导航

APP 下载