摘要
本说明书实施例公开了一种用于大语言模型的数据集构建方法、设备及介质,涉及数据处理技术领域,方法包括:获取指定专业领域中的专业文件数据,以基于专业文件数据,确定大语言模型数据集信息,目标任务类型包括专业知识问答和具体案例分析;通过预先设置的层次递进构建策略,对专业文件数据进行问答对构建,以生成专业文件数据对应的知识问答类数据子集;对专业文件数据进行分析,确定专业文件数据对应的分析案例信息,以根据概率分布特性和所述分析案例信息,构建案例分析类数据子集;基于大语言模型数据集信息,根据知识问答类数据子集和案例分析类数据子集,构建指定专业领域对应的大语言模型专用数据集。
技术关键词
大语言模型
数据集构建方法
专业
专用数据集
分段
变量
计算机可执行指令
答案
策略
数据处理技术
处理器通信
存储器
介质
脚本