大语言模型领域微调数据自动化筛选与修正方法

正文

推荐专利

申请号：CN202510936269

申请日期：2025-07-08

公开号：CN120632309A

公开日期：2025-09-12

类型：发明专利

摘要

本发明提供一种大语言模型领域微调数据自动化筛选与修正方法，属于人工智能领域。包括以下步骤：自动过滤阶段用于识别并移除低质量的数据对，以确保后续微调过程使用的数据集尽可能高质量。自动纠正阶段旨在自动纠正那些被识别为低质量但有可能通过LLM生成更优响应的数据对。重复上述过程，即再次使用更新后的数据集进行LLM微调，形成一个不断优化的循环，直至达到满意的性能水平。本发明显著提高了数据集的整体质量。不仅减少了因直接丢弃数据而导致的学习样本减少问题，还保留了有价值的信息，增强了模型的适应性和性能。

技术关键词

修正方法自然语言推理技术大语言模型数据置信度阈值阶段代表指令基础语义样本基座

大语言模型领域微调数据自动化筛选与修正方法

站点导航

APP 下载