摘要
本发明涉及数据科学技术领域,尤其是指一种数据科学领域大语言模型评估方法、装置、设备及计算机存储介质。本发明所述的大语言模型评估方法,从粗粒度的角度来看,首先汇总任务类型、函数和相应的代码的范围,然后,从细粒度的角度来看,根据特定的任务为每个函数的输出定义编程规则,并将结果与标准答案进行比较,最终,通过生成的测试用例集对目标大语言模型进行评估;本发明从综合的角度为每个子任务生成标准答案并定义特定的评估指标,从而能够面向更复杂的由多个子任务组成的现实世界任务的大语言模型评估。
技术关键词
大语言模型
模型评估方法
典型
测试用例集
生成答案
三元组
数据科学技术
计算机存储介质
可读存储介质
代码更新
预测建模
数据可视化
存储计算机程序
评估设备
数据获取模块
数据处理模块
评估装置
定义
系统为您推荐了相关专利信息
数字孪生系统
环境状态信息
计算机装置
轨迹
编码器
动态知识图谱
智能出题方法
生成知识图谱
英语教材
查询模型