摘要
本申请公开了一种模型评估方法、装置、电子设备和计算机可读存储介质,本申请实施例通过获取包括至少一个评测样本的评测集,所述评测样本包括与函数工具集中的函数工具相关的问答数据以及所述函数工具集,所述问答数据包括问题和基于所述问题调用所述函数工具的指令;将所述问题和所述函数工具集输入至训练后目标模型中进行处理,生成调用所述函数工具集中所述函数工具的预测指令;根据所述预测指令调用的函数工具以及所述指令调用的函数工具,评估所述训练后目标模型调用所述函数工具集中的所述函数工具处理问答任务的能力,可以提高模型评估的准确性。
技术关键词
模型评估方法
指令
可读存储介质
矩阵
样本
数据
电子设备
计算机
参数
评估装置
答案
存储器
处理器
模块
场景