一种用于大语言模型的数据集构建方法、设备及介质

AITNT
正文
推荐专利
一种用于大语言模型的数据集构建方法、设备及介质
申请号:CN202410804921
申请日期:2024-06-21
公开号:CN118378634B
公开日期:2024-09-06
类型:发明专利
摘要
本说明书实施例公开了一种用于大语言模型的数据集构建方法、设备及介质,涉及数据处理技术领域,方法包括:获取指定专业领域中的专业文件数据,以基于专业文件数据,确定大语言模型数据集信息,目标任务类型包括专业知识问答和具体案例分析;通过预先设置的层次递进构建策略,对专业文件数据进行问答对构建,以生成专业文件数据对应的知识问答类数据子集;对专业文件数据进行分析,确定专业文件数据对应的分析案例信息,以根据概率分布特性和所述分析案例信息,构建案例分析类数据子集;基于大语言模型数据集信息,根据知识问答类数据子集和案例分析类数据子集,构建指定专业领域对应的大语言模型专用数据集。
技术关键词
大语言模型 数据集构建方法 专业 专用数据集 分段 变量 计算机可执行指令 答案 策略 数据处理技术 处理器通信 存储器 介质 脚本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号