基于大模型的轻量化领域指令微调数据合成方法及装置

正文

推荐专利

申请号：CN202510938346

申请日期：2025-07-08

公开号：CN120430303B

公开日期：2025-09-02

类型：发明专利

摘要

本发明提供一种基于大模型的轻量化领域指令微调数据合成方法及装置，涉及面向问答的大语言模型数据合成技术领域。该方法包括：将构建的无标签数据集输入大语言模型中，获得合成数据集；采用合成数据集进行训练，获得训练好的数据合成模型；采用低秩分解适配器对训练好的数据合成模型进行指令微调，获得微调后的模型；将给定任务类型和与其相关的无标签数据输入训练好的数据合成模型中，生成具有问题、逻辑以及答案的数据；将无标签数据和具有问题、逻辑以及答案的数据进行合并，获得新的合成数据集；将新的合成数据集输入微调后的模型中进行评估，获得评估分数；根据评估分数进行过滤，获得高质量数据集。采用本发明可提高数据合成的效率。

技术关键词

标签文本大语言模型答案逻辑无标签数据计算机可读取存储介质评估训练数据集计算机可读指令适配器高性能处理器存储器参数

基于大模型的轻量化领域指令微调数据合成方法及装置

站点导航

APP 下载