摘要
本申请涉及一种大语言模型的评估数据集的构建方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。方法包括:获取不同评估维度对应的对话状态主题语句;对对话状态主题语句进行扩展,得到扩展后的对话状态主题语句;对扩展后的对话状态主题语句进行优化,得到待分析语句;待分析语句的对话状态信息的丰富度高于扩展后的对话状态主题语句的对话状态信息的丰富度;将待分析语句和对应的对话状态分析结果集作为评估数据集;对话状态分析结果集包括正确分析结果,以及与正确分析结果不同的至少一个分析结果;评估数据集用于对预训练的大语言模型的对话状态感知能力进行评估。采用本方法能够更加准确地评估大语言模型的对话状态感知能力。
技术关键词
语句
主题
大语言模型
标签
训练样本集
计算机设备
计算机程序产品
数据
可读存储介质
多轮对话
处理器
扩展模块
场景
存储器
定义
参数