摘要
本公开提供了一种文本语料的筛选方法、装置、电子设备及存储介质,属于人工智能技术领域。方法包括:获取多个第一文本语料;从多个第一文本语料中,筛选出语料质量符合质量条件的多个第二文本语料;从多个第二文本语料中,筛选出语料中的事实知识属于目标学科的多个第三文本语料,目标学科与目标大语言模型的模型任务相关;从多个第三文本语料中,筛选出语料中事实知识所属的知识层级符合层级条件的多个目标文本语料,知识层级用于指示语料中事实知识的深度,层级条件包括第三文本语料中事实知识的深度所要达到的标准,多个目标文本语料用于训练目标大语言模型。该方法能够准确筛选出高质量的文本语料,效果更好,利于提升目标大语言模型的性能。
技术关键词
文本
层级
筛选方法
样本
大语言模型
电子设备
可执行程序代码
处理器
可读存储介质
指标
人工智能技术
计算机程序产品
筛选装置
风格
存储器
指令
参数