摘要
本发明涉及大模型微调技术领域,提供一种基于检索增强的微调问答数据集生成方法,包括:将单一领域的文件数据、种子数据集以及问题提示词输入至大语言模型,得到优化问题;种子数据集是基于文件数据生成的问答对;将优化问题、文件数据、种子数据集以及第一答案提示词输入至大语言模型,得到初始答案;在文件数据中确定与优化问题及初始答案相关的原文信息;将原文信息、优化问题、初始答案以及第二答案提示词输入至大语言模型,得到优化答案;根据优化问题和优化答案组成的问答对,确定微调问答数据集。本发明简单、快捷、成本低,有效地解决微调数据集样本数量少、领域关联性弱的问题,较好的平衡了效率和质量的要求,使其适用于垂直领域。
技术关键词
生成方法
大语言模型
数据
答案
种子
非暂态计算机可读存储介质
文本
微调技术
处理器
计算机程序产品
格式
列表
存储器
电子设备
样本
编码