摘要
本发明提供了一种大语言模型不完全信息下的问题处理能力的评测装置,具有这样的特征,包括评测实体生成模块用于根据现有的实体猜测数据,生成层次概念列表和相似实体;简单难度猜测模块用于根据实体及其对应的底层概念,得到对应的简单难度猜测结果和简单难度猜测轮数;普通难度猜测模块用于根据实体及其对应的中间层概念,得到对应的普通难度猜测结果和普通难度猜测轮数;困难难度猜测模块用于根据实体及其对应的底层概念和相似实体,得到对应的困难难度猜测结果、困难难度猜测轮数和问答记录;分析计算模块用于计算得到不完全信息下的问题处理能力结果。总之,本装置能够客观准确地评估大语言模型多个方面的不完全信息下的问题处理能力。
技术关键词
大语言模型
评测装置
实体
游戏
概念
分析单元
模块
中间层
智力
列表
数据