摘要
本申请公开了一种模型训练数据生成方法、装置、存储介质及计算机程序产品,涉及数据处理技术领域,所述方法包括:获取原始业务数据,采用生成判别融合模型修正所述原始业务数据,得到矛盾自适应数据集;采用动态适应合成采样算法遍历所述矛盾自适应数据集进行采样合成,得到平衡样本数据集;基于多智能体协作机制对所述平衡样本数据集进行发散评估,生成多样化训练数据候选集;结合所述原始业务数据对所述多样化训练数据候选集进行语义空间可视化分析和多样性指标计算,得到模型训练数据。通过结合矛盾自适应修正、动态适应合成采样算法、多智能体协作以及语义空间可视化分析,多样性指标计算,生成高质量的模型训练数据。
技术关键词
训练数据生成方法
多智能体协作
计算机程序产品
数据生成装置
样本
大语言模型
主题特征
覆盖率
语义特征
动态
机制
平衡度
指标
数据处理技术
聚类算法
采样模块