摘要
本发明公开了一种基于LLM的数据集制作方法、系统、设备及介质,包括:进行数据收集,形成含有多样性标注的数据集,确保数据集中的数据具有多样化的来源;采用公平重采样算法对数据集进行处理:首先对数据集中的数据进行统计分析,识别出存在偏差的数据类别或属性;然后根据这些数据类别或属性的数据样本的数量和重要性,对数据集中的数据进行加权或重采样,使得数据集在整体上更加均衡;采用对抗训练技术增强数据集的多样性和公平性;通过指标进行评估和调整。本发明通过上述方案能够增强数据集的多样性和公平性,提升LLM在实际应用中的表现。
技术关键词
数据集制作方法
样本
融合多源数据
数据收集模块
翻译技术
指标
采样技术
偏差
算法
采样模块
处理器
超参数
可读存储介质
存储器
鲁棒性
计算机
机制
电子设备
系统为您推荐了相关专利信息
量化评估方法
胚胎
指标
基因组测序数据
植入前筛选
转换方法
音乐模型训练
生成对抗网络训练
音频
声码器
路径规划方法
深度强化学习
动作方式
算法框架
天车
网络摄像系统
训练样本图像
图像结构
图像增强
图像处理模块
数据集扩增方法
生成对抗模型
联合损失函数
注意力
斑点噪声