摘要
本公开涉及一种基于裁判模型的大语言模型评价方法、装置、设备及介质,该方法包括:将预先获取的测试问题分别输入待评价的多个大语言模型,并获取各个大语言模型的输出结果;将测试问题、各个大语言模型的输出结果以及预设的第一引导指令输入预先建立的裁判模型,得到裁判模型输出的模型评价结果,第一引导指令用于引导裁判模型采用准确性、相关性、创造性、逻辑连贯性和信息完整性等目标评价标准对多个大语言模型的模型性能进行评价,模型评价结果包括性能最优的目标大语言模型的信息的。本公开通过将多个大语言模型针对同一问题的输出结果输入裁判模型,引导裁判模型从多角度对各个大语言模型的输出结果进行评价,能够自动对大语言模型进行全面评价。
技术关键词
大语言模型
模型评价方法
指令
文本
聚类
评价装置
逻辑
处理器
计算机设备
输入模块
可读存储介质
存储器
多角度
关系
系统为您推荐了相关专利信息
LED模组
环境感知模型
环境感知数据
亮度
数据采集模块
知识库构建方法
密度峰值聚类算法
语义
文本
分词技术
任务调度方法
策略
任务调度装置
时间片
动态场景
路径识别方法
车牌识别数据
单车
局部敏感哈希算法
行程