摘要
本公开实施例涉及一种模型评估方法、装置、设备及介质,该方法包括:确定候选测试集组;其中,候选测试集组与测试领域一一对应,候选测试集组包括不同难度等级的多个候选测试集;基于多个候选测试集对待测模型进行测试,得到测试结果;将与待测模型难度相匹配的测试结果确定为目标测试结果,将目标测试结果对应的候选测试集作为目标测试集;根据目标测试集对应的难度等级,确定待测模型在测试领域下与对应的难度等级相匹配的评估结果。本公开实施例,避免了模型对单一题目的回答不确定性对评估结果的影响,从领域的针对性以及评估的稳定性等多方面提高了最终确定的评估结果的准确性。
技术关键词
模型评估方法
文本
标签
正确率
语义
对象
评估装置
电子设备
测试模块
处理器
可读存储介质
指令
存储器
标记
基础
计算机
系统为您推荐了相关专利信息
可信度评价方法
文本情感分类器
文本情感分类模型
文本段落
自然语言分词
数据交互装置
数据处理方法
数据处理装置
日志
信号
剩余使用寿命预测
特征提取器
退化特征
构建预测模型
度量
推理机制
语句
计算机程序指令
存储计算机程序
模块