摘要
本申请涉及人工智能技术领域,提供一种大模型评价方法、系统、设备、存储介质及程序产品,该方法包括:获取待评价的交互大模型的完整会话中各交互轮次的交互数据,从交互数据中提取多个评价维度的评价指标;交互数据包括用户输入的交互文本、交互大模型根据交互文本生成的反馈文本和用户评价;基于评价指标在各评价维度上对交互大模型进行评价,得到交互大模型在各评价维度上的评价得分;对各评价维度的评价得分进行加权求和,得到交互大模型的交互成熟度的评价得分,从而确定基于被评价的交互大模型的对话系统是否具备上线能力。基于多轮交互对交互大模型进行快速完整的多维评价,节省了交互大模型评价所需的人力和时间成本。
技术关键词
模型评价方法
指标
文本
情绪特征
非暂态计算机可读存储介质
处理器
对话系统
人工智能技术
计算机程序产品
数据采集模块
意图识别
评价系统
正确率
存储器
电子设备
人力
系统为您推荐了相关专利信息
社交网络影响力
社交媒体平台
分子模型
情感分析模型
多层次指标体系
坐姿矫正方法
数据处理装置
对象
座椅
压力传感器
药物不良反应
信号检测方法
预训练语言模型
编码器模块
神经网络模型