摘要
本说明书实施例提供一种样本数据的筛选方法、装置、设备及介质,其中,样本数据的筛选方法包括:获取第一数据;第一数据为包括题目信息以及参考答案信息的样本试题;利用多个大语言模型解答题目信息,得到第一解答结果;根据第一解答结果,清洗第一数据,得到符合预设条件的第二数据;将第二数据中的题目信息输入待训练模型,得到测试答案信息;基于参考答案信息与测试答案信息,确定适于训练待训练模型的目标数据。基于第一解答结果验证样本试题的质量,解决了利用质量判别模型无法识别各种类型的质量问题的问题;利用待训练模型自身在题目信息上的作答表现来衡量题目信息对于该待训练模型的难度,提高了筛选得到的目标数据的准确性。
技术关键词
大语言模型
答案
样本
筛选方法
计算机可读指令
数据格式
指标
正确率
筛选装置
处理器通信
测试模块
自然语言
计算机设备
介质
存储器
逻辑
标识符