摘要
本发明涉及大数据处理技术领域,公开了一种宠医行业AI大语言模型的测评方法、装置、设备及介质,该方法包括:获取待测评大语言模型的待测评多轮对话数据;使用评估模型,对待测评多轮对话数据进行分析,得到待测评大语言模型的多项评估指标的预测值;其中,评估模型包括基于Transformer的RoBERTa模型和多个回归头部;多项评估指标包括生成质量、专业知识准确性、逻辑性和用户意图理解准确性中的一个或多个,生成质量用于指示待测评大语言模型的流畅性和一致性,逻辑性用于指示待测评大语言模型的多轮对话连贯性。本发明实现了大语言模型的自动测评,而且可以保证测评标准的统一,从而使得评测结果具有一致性和重复性。
技术关键词
大语言模型
多轮对话
指标
样本
测评方法
大数据处理技术
测评装置
可读存储介质
宠物健康
意图
数据获取模块
存储器
处理器
同义词
指令
计算机设备
重复性
标签