摘要
本申请公开了一种模型评估方法、电子设备及计算机可读存储介质,涉及数据处理、大模型技术领域。该方法包括:获取推理数据集,其中,所述推理数据集包括:多种不同类型的逻辑推理任务,所述逻辑推理任务的推理过程包括:多个原子步骤,所述多个原子步骤通过对所述逻辑推理任务的中间推理步骤进行分解后得到;基于所述推理数据集对目标语言模型进行推理能力评估,得到评估结果,其中,所述评估结果用于确定所述目标语言模型的深度推理能力。本申请解决了相关技术中通过最终答案的准确性来评估大模型的推理能力,导致对大模型推理能力评估存在局限,且评估结果的可信度低的技术问题。
技术关键词
模型评估方法
推理方法
树状结构
逻辑
应用程序编程接口
答案
操作界面
可执行代码验证
节点
可读存储介质
数据
深度优先搜索
图形用户界面
客户端
电子设备
计算机程序产品
评估系统
标签
处理器
系统为您推荐了相关专利信息
通信模组
主控芯片
云端服务器
智能家居系统
物联网设备
数据读取电路
时钟信号处理电路
显示驱动芯片
倍频电路
显示驱动方法
设备识别方法
资产
支持向量机模型
逻辑回归算法
随机森林模型