一种基于LLM的数据集制作方法、系统、设备及介质

AITNT
正文
推荐专利
一种基于LLM的数据集制作方法、系统、设备及介质
申请号:CN202411540294
申请日期:2024-10-31
公开号:CN119537942A
公开日期:2025-02-28
类型:发明专利
摘要
本发明公开了一种基于LLM的数据集制作方法、系统、设备及介质,包括:进行数据收集,形成含有多样性标注的数据集,确保数据集中的数据具有多样化的来源;采用公平重采样算法对数据集进行处理:首先对数据集中的数据进行统计分析,识别出存在偏差的数据类别或属性;然后根据这些数据类别或属性的数据样本的数量和重要性,对数据集中的数据进行加权或重采样,使得数据集在整体上更加均衡;采用对抗训练技术增强数据集的多样性和公平性;通过指标进行评估和调整。本发明通过上述方案能够增强数据集的多样性和公平性,提升LLM在实际应用中的表现。
技术关键词
数据集制作方法 样本 融合多源数据 数据收集模块 翻译技术 指标 采样技术 偏差 算法 采样模块 处理器 超参数 可读存储介质 存储器 鲁棒性 计算机 机制 电子设备
系统为您推荐了相关专利信息
1
基于胚胎遗传信息处理的遗传特征指标量化评估方法及计算机程序产品
量化评估方法 胚胎 指标 基因组测序数据 植入前筛选
2
基于谱熵选片的生成对抗网络音乐流派风格转换方法
转换方法 音乐模型训练 生成对抗网络训练 音频 声码器
3
一种天车路径规划方法、系统和介质
路径规划方法 深度强化学习 动作方式 算法框架 天车
4
基于深度学习的网络摄像图像清晰度增强方法及系统
网络摄像系统 训练样本图像 图像结构 图像增强 图像处理模块
5
一种用于目标识别的SAR数据集扩增方法
数据集扩增方法 生成对抗模型 联合损失函数 注意力 斑点噪声
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号