一种数据集构建方法、设备及介质

正文

推荐专利

一种数据集构建方法、设备及介质

申请号：CN202511026896

申请日期：2025-07-24

公开号：CN120744508A

公开日期：2025-10-03

类型：发明专利

摘要

本申请公开了一种数据集构建方法、设备及介质，方法包括：通过标准化逻辑程序和大语言模型提示词，对原始数据进行处理，得到标准化处理文本；通过大语言模型提示词提取标准化处理文本的领域标签，并根据领域标签，构建初始训练样本集；通过验证集评估函数对初始训练样本集进行质量评估，得到质量评估结果；通过大语言模型对质量评估结果进行问题提炼，生成提示词修改建议；将调整后的提示词重新输入大语言模型，生成新训练样本集，并循环迭代质量评估、问题提炼以及提示词调整过程，直至样本质量达到预设质量标准。通过大语言模型提示词结合自适应优化算法，提高了数据集构建的效率、解决依赖人工且难以适应大规模复杂数据处理的痛点。

技术关键词

大语言模型训练样本集数据集构建方法优化训练数据生成提示词启发式规则 JSON格式数据文本计算机可执行指令标签模式策略驱动工具分类规则处理器依赖人工

一种数据集构建方法、设备及介质

站点导航

APP 下载