摘要
本发明提供一种基于大模型的轻量化领域指令微调数据合成方法及装置,涉及面向问答的大语言模型数据合成技术领域。该方法包括:将构建的无标签数据集输入大语言模型中,获得合成数据集;采用合成数据集进行训练,获得训练好的数据合成模型;采用低秩分解适配器对训练好的数据合成模型进行指令微调,获得微调后的模型;将给定任务类型和与其相关的无标签数据输入训练好的数据合成模型中,生成具有问题、逻辑以及答案的数据;将无标签数据和具有问题、逻辑以及答案的数据进行合并,获得新的合成数据集;将新的合成数据集输入微调后的模型中进行评估,获得评估分数;根据评估分数进行过滤,获得高质量数据集。采用本发明可提高数据合成的效率。
技术关键词
标签文本
大语言模型
答案
逻辑
无标签数据
计算机可读取存储介质
评估训练数据集
计算机可读指令
适配器
高性能
处理器
存储器
参数