一种数据集构建方法、设备及介质

AITNT
正文
推荐专利
一种数据集构建方法、设备及介质
申请号:CN202511026896
申请日期:2025-07-24
公开号:CN120744508A
公开日期:2025-10-03
类型:发明专利
摘要
本申请公开了一种数据集构建方法、设备及介质,方法包括:通过标准化逻辑程序和大语言模型提示词,对原始数据进行处理,得到标准化处理文本;通过大语言模型提示词提取标准化处理文本的领域标签,并根据领域标签,构建初始训练样本集;通过验证集评估函数对初始训练样本集进行质量评估,得到质量评估结果;通过大语言模型对质量评估结果进行问题提炼,生成提示词修改建议;将调整后的提示词重新输入大语言模型,生成新训练样本集,并循环迭代质量评估、问题提炼以及提示词调整过程,直至样本质量达到预设质量标准。通过大语言模型提示词结合自适应优化算法,提高了数据集构建的效率、解决依赖人工且难以适应大规模复杂数据处理的痛点。
技术关键词
大语言模型 训练样本集 数据集构建方法 优化训练数据 生成提示词 启发式规则 JSON格式数据 文本 计算机可执行指令 标签 模式 策略 驱动工具 分类规则 处理器 依赖人工
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号