一种基于LLM的数据集制作方法、系统、设备及介质

正文

推荐专利

申请号：CN202411540294

申请日期：2024-10-31

公开号：CN119537942A

公开日期：2025-02-28

类型：发明专利

摘要

本发明公开了一种基于LLM的数据集制作方法、系统、设备及介质，包括：进行数据收集，形成含有多样性标注的数据集，确保数据集中的数据具有多样化的来源；采用公平重采样算法对数据集进行处理：首先对数据集中的数据进行统计分析，识别出存在偏差的数据类别或属性；然后根据这些数据类别或属性的数据样本的数量和重要性，对数据集中的数据进行加权或重采样，使得数据集在整体上更加均衡；采用对抗训练技术增强数据集的多样性和公平性；通过指标进行评估和调整。本发明通过上述方案能够增强数据集的多样性和公平性，提升LLM在实际应用中的表现。

技术关键词

数据集制作方法样本融合多源数据数据收集模块翻译技术指标采样技术偏差算法采样模块处理器超参数可读存储介质存储器鲁棒性计算机机制电子设备

系统为您推荐了相关专利信息

基于胚胎遗传信息处理的遗传特征指标量化评估方法及计算机程序产品

量化评估方法胚胎指标基因组测序数据植入前筛选

基于谱熵选片的生成对抗网络音乐流派风格转换方法

转换方法音乐模型训练生成对抗网络训练音频声码器

一种天车路径规划方法、系统和介质

路径规划方法深度强化学习动作方式算法框架天车

基于深度学习的网络摄像图像清晰度增强方法及系统

网络摄像系统训练样本图像图像结构图像增强图像处理模块

一种用于目标识别的SAR数据集扩增方法

数据集扩增方法生成对抗模型联合损失函数注意力斑点噪声

一种基于LLM的数据集制作方法、系统、设备及介质

站点导航

APP 下载