摘要
本申请公开了一种数据集构建方法、设备及介质,方法包括:通过标准化逻辑程序和大语言模型提示词,对原始数据进行处理,得到标准化处理文本;通过大语言模型提示词提取标准化处理文本的领域标签,并根据领域标签,构建初始训练样本集;通过验证集评估函数对初始训练样本集进行质量评估,得到质量评估结果;通过大语言模型对质量评估结果进行问题提炼,生成提示词修改建议;将调整后的提示词重新输入大语言模型,生成新训练样本集,并循环迭代质量评估、问题提炼以及提示词调整过程,直至样本质量达到预设质量标准。通过大语言模型提示词结合自适应优化算法,提高了数据集构建的效率、解决依赖人工且难以适应大规模复杂数据处理的痛点。
技术关键词
大语言模型
训练样本集
数据集构建方法
优化训练数据
生成提示词
启发式规则
JSON格式数据
文本
计算机可执行指令
标签
模式
策略
驱动工具
分类规则
处理器
依赖人工